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NOTA DOS AUTORES 


A estatistica mostra-se, cada vez mais, como uma poderosa ferramenta para 
a analise e avaliagao de dados, em varias areas do conhecimento, sendo muitas 
vezes um tanto dificil para os profissionais trabalharem conceitos e elaborarem 
exemplos praticos, devido a limitagao de materiais didaticos que expressem, com 
simplicidade e clareza, metodos e procedimentos da aplicagao de certas tecnicas 
multivariadas, que so passaram a ser utilizadas, em larga escala, a partir do advento 
dos computadores. 

Embora a estatistica multivariada tenha surgido por volta de 1901, apenas 
nos dias de hoje consegue-se desenvolver e aplicar essa tecnica, pois sem o auxilio 
de programas computacionais nao seria possivel realizar tao rapido, e com tanta 
clareza, os graficos que possibilitam estudar o inter-relacionamento das variaveis. 

Pode-se verificar, no decorrer da pesquisa, que as tecnicas de analise de 
agrupamentos, e analise de componentes principals, sao tecnicas matematicas, com 
grande fundamentagao na algebra e na geometria, o que muitas vezes faz com que 
os estatisticos nao considerem como tecnica estatistica. Por outro lado, figuram, 
quase sempre, em congressos nacionais e revistas especializadas, que tratam de 
assuntos sobre estatistica. 

A analise fatorial, que muitas vezes e confundida com analise de 
componentes principals, pelo fato de um dos modos de extragao de fatores ser a de 
componentes principals, e considerada uma tecnica estatistica, pois ela pressupoe a 
existencia de um modelo, permite que se faga inferences e cumpre com algumas 
pressuposigoes basicas sobre as variaveis em analise, como a multinormalidade dos 
dados. 

Nos dias atuais, o uso dessas tecnicas esta bastante consolidado, mas 
deve-se ter o cuidado de que nao basta se observar um conjunto de variaveis e 
aplicar tecnicas multivariadas, simplesmente, com o intuito de apresentar a tecnica e 
valorizar a pesquisa que se esta realizando. Ha a necessidade de que exista uma 
estrutura de correlagao entre as variaveis, pois, se as mesmas nao estiverem ligadas 
entre si, tem-se que utilizar uma analise univariada, uma vez que esta, se bem 
aplicada, e capaz de fornecer um nivel muito bom de informagao. 

A estatistica univariada, em nenhum momento deve ser dispensada, quando 
se realiza um trabalho estatistico, pois e por meio da analise exploratoria de dados 




que sera possivel conhecer as variaveis em estudo. Como se sabe, a analise 
multivariada e uma tecnica exploratoria e, devido a isso, a analise univariada sera 
util, tambem, para realizar um estudo confirmatorio. 

Com o material didatico, que esta sendo apresentado, fez-se uma ampla 
revisao de literatura, levando-se em consideragao textos classicos e atuais, pois 
procura-se revelar, ao maximo, essa tecnica, que, muitas vezes, e obscura para os 
alunos, pesquisadores e profissionais que a utilizam. O uso do software foi 
indispensavel, pois sem ele nao seria possivel a realizagao dos estudos de caso. 
Embora trabalhando-se com programas diferentes, existe uma similaridade entre 
eles. Isto e, ao se saber bem interpretar os resultados de um, nao se tera problemas 
ao se interpretar resultados de outro. 

Devido a crescente procura sobre a analise multivariada e a busca de 
material didatico que esteja disponivel para pesquisas nesta area, desenvolve-se 
este material, que traz, passo a passo o desenvolvimento das tecnicas de analise de 
agrupamentos, analise fatorial e analise de componentes principais, pois sabe-se 
que muitos materiais existem e mostram como aplicar as tecnicas, mas poucos 
dizem como estas sao desenvolvidas. 

A estatistica, por ser multidisciplinar, esta inserida em varias areas do 
conhecimento, por isso faz-se necessario a sua aplicagao, o seu entendimento e sua 
interpretagao como ferramenta de pesquisa. 

Sao apresentados exemplos praticos elaborados de forma clara, para que 
todos que fizerem uso deste material possam compreender em que condigoes e 
como poderao ser aplicadas as tecnicas aqui apresentadas, bem como interpretar os 
resultados obtidos nas analises. 

Este material podera ser utilizado por todos que necessitem analisar base de 
dados relativamente complexas, ou seja, espagos de dimensao iguais ou superiores 
ao R 3 , nos quais deve existir correlagoes entre as variaveis. Mostrou-se, tambem, 
como interpretar essas variaveis, para que todos possam utilizar com seguranga os 
metodos da estatistica multivariada. 

Em relagao ao uso de programas utilizados, para aplicagao da tecnica, 
sugere-se que outros programas sejam utilizados, assim como os softwares, pois, 
desta forma, estimula-se o pesquisador a criar as suas proprias rotinas 
computacionais. 



Ressalta-se que a utilizagao de bibliografia adicional para a compreensao da 
tecnica assim como a sua aplicagao e necessaria, pois o entendimento do 
pesquisador a cada leitura sera aprimorado e o mesmo podera tirar conclusoes mais 
acertadas da pesquisa desenvolvida. 

Este material didatico contempla a teoria e a pratica das tecnicas de 
agrupamentos, analise fatorial e de componentes principals, voltado as 
necessidades de atender pesquisadores dos cursos de graduagao, pos-graduagao e 
pesquisadores, que necessitem dessa ferramenta estatistica em suas pesquisas 
para analises em seu trabalho. 

Alem da apresentagao das tres tecnicas multivariadas apresentadas neste 
material didatico, tambem apresenta-se quatro pesquisas em que foi aplicado os 
metodos multivariados, estas pesquisas ja foram apresentadas em eventos 
cientificos nacionais ou internacionais, portanto, ja tiveram o crivo de avaliagao dos 
referidos eventos em que foram publicados. 

No anexo apresenta-se uma revisao de algebra que devera ser consultada 
somente se o leitor achar necessario, pois consideramos que se o mesmo nao tiver 
conhecimento sobre algebra dificultara o bom entendimento das tecnicas. 

Salientamos que este material e de responsabilidade dos autores e que 
quaisquer duvidas ou sugestoes devem ser encaminhada para os mesmos, para que 
com isso o material seja aprimorado. 


Os autores 
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1 introduqAo 


A analise multivariada e um vasto campo, no qua I ate os estattsticos 
experientes movem-se cuidadosamente, devido esta ser uma area recente 
da ciencia, pois ja se descobriu muito sobre esta tecnica estattstica, mas 
muito ainda esta para se descobrir (MAGNUSSON, 2003). 

Na vida, sempre que for necessario tomar uma decisao, deve-se levar em 
conta um grande numero de fatores. Obviamente, nem todos esses pesam da 
mesma maneira na hora de uma escolha. As vezes, por se tomar uma decisao 
usando a intuigao, nao se identifica, de maneira sistematica, esses fatores, ou essas 
variaveis, ou seja, nao sao identificadas quais as variaveis que afetaram a tomada 
de decisao. 

Quando se analisa o mundo que nos cerca, identifica-se que todos os 
acontecimentos, sejam eles culturais ou naturais, envolvem um grande numero de 
variaveis. As diversas ciencias tern a pretensao de conhecer a realidade, e de 
interpretar os acontecimentos e os fenomenos, baseadas no conhecimento das 
variaveis intervenientes, consideradas importantes nesses eventos. 

Estabelecer relagoes, encontrar, ou propor, leis explicativas, e papel proprio 
da ciencia. Para isso, e necessario controlar, manipular e medir as variaveis que sao 
consideradas relevantes ao entendimento do fenomeno analisado. Muitas sao as 
dificuldades em traduzir as informagoes obtidas em conhecimento, principalmente 
quando se trata da avaliagao estatistica das informagoes. 

Os metodos estatisticos, para analisar variaveis, estao dispostos em dois 
grupos: um que trata da estatistica, que olha as variaveis de maneira isolada - a 
estatistica univariada, e outro que olha as variaveis de forma conjunta - a estatistica 
multivariada. 

Ate o advento dos computadores, a unica forma de se analisar as variaveis 
era de forma isolada, e a partir dessa analise fazer inferences sobre a realidade. 
Sabe-se que essa simplificagao tern vantagens e desvantagens. Quando um 
fenomeno depende de muitas variaveis, geralmente esse tipo de analise falha, pois 
nao basta conhecer informagoes estatisticas isoladas, mas e necessario, tambem, 
conhecer a totalidade dessas informagoes fornecidas pelo conjunto das variaveis e 
suas relagoes. Quando as relagoes existentes entre as variaveis nao sao 
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percebidas, efeitos desconhecidos, entre variaveis, dificultam a interpretagao do 
fenomeno a partir das variaveis consideradas. 

O desenvolvimento tecnologico, oriundo das descobertas cientificas, tem 
apoiado o proprio desenvolvimento cientifico, ampliando, em varias ordens de 
grandeza, a capacidade de obter informagoes de acontecimentos e fenomenos que 
estao sendo analisados. Uma grande massa de informagao deve ser processada 
antes de ser transformada em conhecimento. Portanto, cada vez mais necessita-se 
de ferramentas estatisticas que apresentem uma visao mais global do fenomeno, 
que aquela possivel numa abordagem univariada. A denominagao “Analise 
Multivariada” corresponde a urn grande numero de metodos e tecnicas que utilizam, 
simultaneamente, todas as variaveis na interpretagao teorica do conjunto de dados 
obtidos (NETO, 2004). 

Existem varios metodos de analise multivariada, com finalidades bem 
diversas entre si. Portanto, volta-se ao passo inicial, que e saber que conhecimento 
se pretende gerar. Ou melhor, que tipo de hipotese se quer gerar a respeito dos 
dados. 

Os pesquisadores devem ter cautela ao trabalhar com as tecnicas de analise 
multivariada, pois a arte do seu uso esta na escolha das opgoes mais apropriadas 
para detectar os padroes esperados nos seus dados, e as opgoes mais apropriadas 
podem nao estar no programa de seu computador. Leva-se algum tempo ate 
escolher as opgoes menos ruins em analises multivariadas, recomenda-se que os 
leitores exercitem, com cautela, durante o tempo necessario para apreender as 
limitagoes dessas analises, antes de tentar explorar suas grandes potencialidades 
(MAGNUSSON, 2003). 

Os metodos multivariados sao escolhidos de acordo com os objetivos da 
pesquisa, pois sabe-se que a analise multivariada e uma analise exploratoria de 
dados, prestando-se a gerar hipoteses, e nao tecer confirmagoes a respeito dos 
mesmos, o que seria uma tecnica confirmatoria, como nos testes de hipotese, nos 
quais se tem uma afirmagao a respeito da amostra em estudo. Embora, as vezes, 
possa ser utilizada para confirmagao dos eventos (HAIR, et at, 2004). Portanto, a 
estatistica multivariada, com os seus diferentes metodos, difere de uma prateleira de 
supermercado abarrotada de produtos com a mesma fungao, pois cada metodo tem 
sua fundamentagao teorica e sua aplicabilidade. Quando o interesse e verificar como 
as amostras se relacionam, ou seja, o quanto estas sao semelhantes, segundo as 
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variaveis utilizadas no trabalho, destacam-se dois metodos, que podem ser 
utilizados: a analise de agrupamento hierarquico e a analise fatorial com analise de 
componentes principais. 

Ao realizar um estudo estatistico quer seja univariado ou multivariado 
sempre existira a perda de informagao, pois no momento que se esta reduzindo um 
conjunto de dados para ser representado pela sua media, no caso univariado se 
perde informagao. O mesmo ocorre quando se aplica uma tecnica multivariada, pois 
ao reduzir a dimensionalidade de um problema tambem se perde informagao. O 
trade-off do pesquisador entao reside em obter a informagao e saber que tern um 
erro que foi quantificado ou nao. 

Na realidade o estudo multivariado nao apresenta dificuldade em efetuar as 
rotinas computacionais, mas sim em interpretar o novo conjunto de variaveis e ser 
capaz de traduzir as informagoes que estao sendo reveladas, que ate entao nao 
eram percebidas por estarem em um espago dimensional maior do que tres. 
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2 APRESENTANDO OS METODOS 


Neste capitulo, sera apresentada a revisao de literatura, dividida em itens, 
servindo de suporte para o desenvolvimento das tecnicas apresentadas. No item 
2.1, sera discutida a analise de agrupamentos. No item 2.2, sera apresentada de 
analise de componentes principais. No item 2.3, apresenta-se a analise fatorial, 
abordando, os seus aspectos metodologicos e suas aplicagoes. 

2.1 Analise de agrupamentos - AA 

Todos nos acreditamos que qualquer populagao e composta de segmentos 
distintos. Se trabalhamos com as variaveis adequadas, a analise de 
conglomerados nos ajudara a ver se existem grupos que sao mais 
semelhantes entre si do que com membros de outros grupos (Tom Myers, 
consultor Burke Customer, Satisfaction Associates). 

A AA, em sua aplicagao, engloba uma variedade de tecnicas e algoritmos, 
sendo que o objetivo e encontrar e separar objetos em grupos similares. Essa 
tecnica pode ser observada, por exemplo, se se tiver varios produtos em uma 
determinada prateleira de urn supermercado, e distribuir esses produtos, na 
prateleira, segundo suas caracteristicas, de urn mesmo composto, ou o mesmo 
principio ativo, por exemplo. Ai esta-se a praticar AA. Agora, se esses produtos 
estiverem espalhados por toda a prateleira, significa que se tera mais de uma 
caracteristica, e, para que se possa uni-los por caracteristicas comuns, sera muito 
trabalhoso, exigindo conceitos mais sofisticados de semelhanga, e procedimentos 
mais cientificos para junta-los. E em relagao a esse procedimento multidimensional 
que se trabalhara. 

Em alguns estudos, torna-se necessario conhecer algumas caracteristicas 
de determinado grupo de urn conjunto de elementos amostrais, principalmente 
quando e resultante de uma ou mais variaveis. Quando se obtem mensuragao de 
diferente natureza, pode-se observar se ha similaridades no conjunto de dados. Urn 
dos metodos a AA, que podera ser utilizado para tais objetivos. 

A analise de agrupamentos estuda todo urn conjunto de relagoes 
interdependentes. Ela nao faz distingao entre variaveis dependentes e 
independentes, isto e, variaveis do tipo causa e efeito, como na regressao. 
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Conforme Everitt (1974 apud BUSSAB, 1990), a AA pretende resolver o 
seguinte problema: “dada uma amostra de n objetos (ou individuos), cada um deles 
medindo segundo p variaveis, procurar um esquema de classificagao que agrupe os 
objetos em g grupos. Deve ser determinado, tambem, o numero de variaveis desses 
grupos”. Portanto, a finalidade dessa tecnica e reunir os objetos (individuos, 
elementos) verificados nos grupos em que exista homogeneidade dentro do grupo e 
heterogeneidade entre os grupos, objetivando propor classificagoes. Os objetos em 
um grupo sao relativamente semelhantes, em termos dessas variaveis, e diferentes 
de objetos de outros grupos. Quando utilizada dessa forma, a AA e o inverso da 
analise de fatores, pelo fato de reduzir o numero de objetos, e nao o numero de 
variaveis, concentrando-os em um numero muito menor de grupos. 

A AA constitui uma metodologia numerica multivariada, com o objetivo de 
propor uma estrutura classificatoria, ou de reconhecimento da existencia de grupos, 
objetivando, mais especificamente, dividir o conjunto de observagoes em um numero 
de grupos homogeneos, segundo algum criterio de homogeneidade (REGAZZI, 
2001). Muitas vezes, nessa tecnica, sao feitas afirmativas empiricas, que nem 
sempre tern respaldo teorico. Muitas tecnicas sao propostas, mas nao ha, ainda, 
uma teoria generalizada e amplamente aceita. Devido a isso, deve-se utilizar varios 
metodos e comparar os resultados, para que a analise dos dados seja realizada pela 
tecnica mais adequada. 

A AA e um metodo simples, calcada nos calculos de distancia, no entanto, 
nao requerem conhecimento estatistico para a sua aplicagao, como e o caso quando 
se aplica analise de variancia, de regressao, ou fatorial. O primeiro caso, AA nao 
requer o uso de um modelo, os demais casos necessitam. Para a aplicagao da AA, 
as estatisticas e os conceitos, a seguir, serao utilizados: 

Esquema de aglomeragao: Informa sobre objetos, ou casos a serem 
combinados em cada estagio de um processo hierarquico de aglomeragao. 
Centroide do agrupamento: Representam os valores medios das variaveis 
para todos os casos, ou objetos em um agrupamento particular. 

Centros de agrupamentos: Sao os pontos iniciais em um agrupamento 
nao-hierarquico. Os agrupamentos sao construidos em torno desses 
centros. 

Composigao de um Agrupamento: Indica o agrupamento ao qual 
pertence cada objeto, ou caso (MALHOTRA, 2001, p.528). 


Dendograma ou Fenograma: Tambem chamado de grafico em arvore. 
Este, representa uma sintese grafica do trabalho desenvolvido, sintetizando a 
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informagao, ocasionando uma pequena perda da mesma, pelo fato de ser uma 
sintese. Embora acontega essa perda de informagao, esse grafico e de grande 
utilidade para a classificagao, comparagao e discussao de agrupamentos. 

Ha duas formas de se representar urn dendograma: horizontal e 
verticalmente. 

No dendograma horizontal, as linhas verticais, ou o eixo y, representam os 
grupos unidos por ordem decrescente de semelhanga, e a posigao da reta, na 
escala ou o eixo x, indica as distancias entre os grupos que foram formados. O 
dendograma e lido de cima para baixo, quando forfeito na forma horizontal. 


Dendograma das variaveis 
Menor distancia euclidiana 



Distancia entre os grupos 

Figura 01 - Dendograma horizontal. 

Verifica-se, na Figura 01, que as variaveis Var 1 e Var 5 sao as que 
possuem a maior semelhanga, no dendograma, por possuirem a menor distancia 
euclidiana, sendo essas a formarem o primeiro grupo. Logo, em seguida, vem as 
variaveis Var 2, Var 3, Var 8, e, assim, sucessivamente, as variaveis serao 
agrupadas, por ordem decrescente de semelhanga, ou seja, a Var 9 formou o ultimo 
grupo do dendograma, o qual manteve-se distinto dos demais grupos formados, pelo 
fato de essa variavel possuir pouca semelhanga em relagao as outras. 

Como hoje, ainda, nao existe uma teoria que diga em qual altura deve-se 
fazer urn corte no grafico, e o pesquisador quern decide. Fazendo urn corte entre as 
alturas 20 e 30, obter-se-a dois grupos homogeneos distintos, o primeiro e maior, 


16 


que e formado pelas variaveis Var 1 , Var 5, Var 2, Var 3, Var 8, Var 6, Var 7e Var 4, 
ja o segundo grupo e formado apenas pela Var 9. 

No dendograma vertical, a leitura e feita da direita para esquerda, no qual as 
linhas verticals, ou o eixo y, indicam as distancias entre os grupos foram formados, e 
a posigao da reta na escala, ou o eixo x, representa os grupos unidos por ordem 
decrescente de semelhanga, conforme Figura 02. 

A interpretagao desta Figura 02 e analoga a Figura 01, apenas muda no eixo 
em que as variaveis estao representadas. 


Dendograma das variaveis 
menor distancia euclidiana 



Figura 02 - Dendograma vertical. 

Distancia entre centros de conglomerados. Indica a distancia que separa 
os pares individuals de conglomerados. Sendo que os conglomerados que 
se apresentam bem separados sao distintos. Sao esses os desejaveis para 
a analise. 

Matriz de coeficientes de semelhanga ou distancia. E o triangulo inferior 
,ou superior, de uma matriz que contem distancias emparelhadas entre 
objetos ou casos (MALHOTRA, 2001, p.528). 

O primeiro passo, para realizar a AA, consiste em formular o problema de 
aglomeragao, definindo as variaveis sobre as quais se baseara o agrupamento. Logo 
apos, faz-se a coleta dos dados, que serao reunidos numa tabela com m colunas 
(variaveis) e n linhas (objetos). Antes de escolher a medida de distancia para a 
analise dos dados, e necessario verificar se os mesmos encontram-se com a mesma 
unidade de medida. Caso contrario, deve-se fazer a padronizagao dos mesmos. 
Escolhe-se, entao, uma medida apropriada de distancia, que ira determinar o quao 
semelhantes, ou diferentes, sao os objetos que estao sendo agrupados. Dentre 
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varios processos de aglomeragao, o pesquisador deve escolher aquele que e mais 
apropriado ao problema estudado. 

Um metodo e melhor do que um outro quando o dendograma fornece uma 
imagem menos distorcida da realidade. E possivel avaliar o grau de deformagao 
provocado pela construgao do dendograma calculando-se o coeficiente de 
correlagao cofenetico (VALENTIN, 2000). Ou seja, o menor grau de distorgao, sera 
refletido pelo maior coeficiente cofenetico, fornecido pela matriz fenetica F, na qual 
seus valores foram obtidos junto a matriz de distancias inicial e pela matriz 
cofenetica C, sendo estes os valores obtidos junto a matriz final das distancias. O 
maior coeficiente cofenetico possui a capacidade de evidenciar melhor a estrutura 
dos dados, isto e, a existencia de grupos. 

A decisao sobre o numero total de conglomerados, a constarem na analise, 
cabera ao pesquisador, pois esta dependera de cada pesquisa. 

A estrutura basica da aplicagao da AA pode ser representada em etapas, 
conforme mostra a Figura 03: 



Figura 03 - Etapas para a realizagao da analise de agrupamentos. 

Deve-se observar que essas etapas nao sao independentes. Algumas 
vezes, sera necessario voltar a etapas anteriores para corrigir e aprimorar algumas 
etapas posteriores. Considera-se que as etapas descritas na Figura 03 formam um 
procedimento metodologico muito util para a realizagao da AA. 
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Acredita-se que a formulagao do problema seja a parte mais importante da 
analise de agrupamentos, ou seja, a escolha das variaveis nas quais se baseara o 
processo de aglomeragao. A inclusao de uma, ou duas variaveis, sem importancia, 
podera vir a distorcer o resultado final da analise. O conjunto de variaveis escolhido 
deve descrever a semelhanga entre objetos, em termos relevantes para o problema 
em pesquisa. Esta fase e importante para a AA, pois e onde se fixa o criterio de 
homogeneidade. Segundo Bussab et al. (1190, p. 2), “criterios distintos levam a 
grupos homogeneos distintos, e o tipo de homogeneidade depende dos objetivos a 
serem alcangados”. 

Ao analisar os dados, em primeiro lugar deve-se verificar se eles devem ser 
tratados. Por exemplo, deve-se observar se as variaveis foram medidas em 
unidades muito diferentes entre si. A solugao por aglomerado sera influenciada pelas 
unidades de medida. Nesse caso, deve-se, antes de aglomerar as amostras, 
padronizar os dados. Embora a padronizagao possa remover a influencia da unidade 
de medida, podera tambem reduzir as diferengas entre grupos em variaveis que 
melhor descrevam os conglomerados, pois as unidades associadas as variaveis 
podem, arbitrariamente, afetar o grau de similaridade entre os objetos, e a 
padronizagao dos dados faz com que esse efeito da arbitrariedade seja eliminado, 
fazendo com que as variaveis possuam a mesma contribuigao no calculo do 
coeficiente de similaridade entre os objetos. 

Para que seja possivel padronizar as variaveis, e necessario ter-se uma 
matriz de dados com p variaveis (j = 1, 2, ...., p) e n objetos (i = 1, 2, n). Sendo 

que, na matriz de dados, o valor do i-esimo objeto e j-esima variavel sera denotado 

por Xjj, no qual o valor padronizado sera representado por Z ;j . Onde as variaveis 

padronizadas terao media 0 e variancia constante 1, sendo esta a mais utilizada na 
pratica, e e representada pela seguinte fungao: 



x j 


( 2 . 1 ) 


sendo cada i fixo, no qual i = 1 , 2, n e j = 1 , 2, ..., p 

Para aplicar a AA, em urn conjunto de dados, e muito importante a escolha 
de urn coeficiente que quantifique o quao parecidos dois objetos sao. Esse 
coeficiente pode ser dividido em duas categorias, que dizem respeito a estimagao de 
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uma medida de similaridade, ou dissimilaridade, entre os individuos, ou populagoes, 
a serem agrupados. Na medida de similaridade, quanto maior for o valor observado, 
mais parecido serao os objetos. Ja na medida de dissimilaridade, quanto maior for o 
valor observado, menos parecido serao os objetos. Urn exemplo de medida de 
similaridade e o coeficiente de correlagao, pois quanto maior seu valor, maior a 
associagao e de dissimilaridade a distancia euclidiana, pois quanto menor o valor 
mais proximo os objetos estao uns dos outros. 

Para que seja possivel a escolha do melhor coeficiente de semelhanga, e 

necessario ter-se uma matriz X^ nxp) = X tj . Assim, cada vetor linha representa 

uma unidade amostral (individuos, tratamentos, especies), e cada vetor coluna, uma 
variavel (REGAZZI, 2001 ), como apresenta-se na Tabela 01 . 


Tabela 01 - Matriz de dados n individuos e p variaveis. 


Individuos 

Variaveis 

Xi 

x 2 

X 3 

x 4 

Xj 

Xp 

1 

Xu 

X12 

X13 

x 14 

Xij 

x 1p 

2 

X21 

X22 

X23 

X24 

x 2j 

X 2p 

3 

X31 

X32 

X33 

X34 

X 3j 

X 3p 


Xii X i2 X i3 Xi 4 


Xij 


x ir 


n Xni X n 2 X n 3 X n 4 ... X n j ... X n p 

Fonte: Regazzi (2001) 

O primeiro estagio, em muitos metodos da analise de agrupamentos, e a 
conversao da matriz n x p de dados em uma matriz quadrada, onde neo numero de 
individuos, de similaridade ou dissimilaridade, que sao medidas da relagao entre 
pares de individuos, ou populagoes. Dado o valor de urn conjunto de p variaveis, em 
cada intersecgao da i-esima fila, e da k-esima coluna dessa matriz, coloca-se a 
medida de similaridade, ou dissimilaridade, entre o i-esimo e k-esimo individuo. A 
alta similaridade indica que dois individuos sao comuns em relagao ao conjunto de 
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variaveis, enquanto que a alta dissimilaridade indica o contrario (MAXWEL, 1977 
apud REGAZZI, 2001). 

Algumas medidas de similaridade e dissimilaridade, que sao utilizadas em 
analise de agrupamento, sao citadas aqui. Ressalta-se que as expressoes 
matematicas, usadas na determinagao dos coeficientes de distancia, serao dadas 
em fungao das variaveis originais. Se forem usadas as variaveis transformadas, 
utilizam-se as mesmas formulas, trocando Xy por Zy. 

Como o objetivo da analise de agrupamento e reunir objetos semelhantes, 
torna-se necessario alguma medida para avaliar o quao semelhantes, ou diferentes 
sao os objetos. Geralmente, costuma-se avaliar a semelhanga em termos de 
distancia entre pares de objetos. Os objetos que possuem a menor distancia entre si 
sao mais semelhantes, urn do outro, do que os objetos com a maior distancia. Essa 
medida de semelhanga e fornecida pela distancia euclidiana. 

Urn grande problema da AA e a escolha da medida de proximidade mais 
adequada, sendo que as tecnicas sao baseadas em diferentes medidas de 
proximidade, e nem sempre chegam ao mesmo resultado. Devido a isso, e 
importante testar mais de uma medida de distancia, para que possa ser utilizada a 
mais adequada para a analise. 

Segundo Regazzi (2001), “embora a distancia euclidiana seja uma medida 
de dissimilaridade, as vezes ela e referida como uma medida de semelhanga, pois 
quanto maior seu valor, menos parecidos sao os individuos ou unidades amostrais”. 

A distancia entre dois pontos do piano pode ser definida como uma fungao d, 
que, a cada par de pontos P 1 e P 2 , associa urn numero real positivo, d(P x ,P 2 ), com 
as seguintes propriedades: 

i) se0 < d(P x ,P 2 ) e d(P 2 ,P x ) = 0, se e somente se, Pi = P 2 

ii) d(P x ,P 2 ) = d{P 2 ,P x ) (Simetria) 

iii) d(P x ,P 2 ) < d(P x ,P 2 ) + d(P 3 ,P 2 ), onde P 3 e urn ponto qualquer do piano 
(Desigualdade Triangular). 

Essas condigoes somente traduzem, em linguagem matematica, as 
propriedades que, intuitivamente, espera-se de uma fungao que sirva para medir 
distancias, isto e, a distancia entre dois pontos deve ser sempre positiva, e so se 
deve anular quando os pontos coincidirem. 
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A distancia medida de um ponto Pi ate um ponto P 2 deve ser a mesma, quer 
essa medida seja feita de Pi a P 2 , ou de P 2 a Pi. 

A terceira propriedade diz simplesmente que, dados tres pontos no piano, a 
medida de qualquer dos lados do triangulo, determinado por estes pontos, e menor 
que a soma da medida dos outros dois. Por isso, a desigualdade, que traduz essa 
condigao, e chamada desigualdade triangular. 

A expressao dissimilaridade surgiu em fungao de que, a medida que 
d(P l ,P 2 ) cresce, diz-se que a divergencia entre Pi e P 2 aumenta, ou seja, torna-se 
cada vez mais dissimilar. 

Conforme Malhotra (2001, p. 529), “a utilizagao de diferentes medidas de 
distancia pode levar a resultados diferentes de aglomeragao. Assim, e conveniente 
utilizar medidas diferentes e comparar os resultados”. 

As medidas de distancia consideram que, se dois individuos sao similares, 
eles estao proximos um do outro, ou seja, eles sao comuns ao conjunto de variaveis 
e vice-versa. 

O coeficiente de associagao pode ser chamado de calculo da matriz, 
denominada de matriz de similaridade, ou dissimilaridade, podendo esta ser 
denominada de matriz de proximidade entre os elementos observados (similaridade, 
distancia, dependencia). Exemplificando, pode-se considerar a distancia euclidiana 
como uma medida de dissimilaridade, e o coeficiente de correlagao como uma 
medida de similaridade. 

A seguir, estao apresentados alguns coeficientes de similaridade, usados 
para estabelecer o conceito de distancia entre os objetos. 


2.1.1 Alguns coeficientes de medida de distancia 
• Distancia Euclidiana 

A distancia euclidiana e, sem duvida, a medida de distancia mais utilizada 
para a analise de agrupamentos. 

Considerando o caso mais simples, no qual existem n individuos, onde cada 
um dos quais possuem valores para p variaveis, a distancia euclidiana entre eles e 
obtida mediante o teorema de Pitagoras, para um espago multidimensional. 
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Segundo Manly (1986), “a distancia euclidiana, quando for estimada a partir 
das variaveis originals, apresenta a inconveniencia de ser influenciada pela escala, 
de medida pelo numero de variaveis e pela correlagao existente entre as mesmas”. 
Para contornar as escalas, faz-se a padronizagao das variaveis em estudo, para que 
possuam a variancia igual a unidade. 

Considerando dois individuos i e f , a distancia entre eles e dada por 

i (2-2) 

tv, - 2 

7=1 



• Distancia euclidiana media 



Figura 4 - Distancia media. 


A distancia entre dois agrupamentos e obtida pela media das distancias. 
Aqui, e possivel encontrar o valor da distancia atraves da media aritmetica. Atraves 
dessa, a distancia entre cada conglomerado tern o mesmo peso. A distancia 
euclidiana media e dada por: 






X : 


(2.3) 


• Distancia de Mahalanobis - D 2 

A similaridade entre as unidades amostrais (tratamentos, individuos, 
populagoes), com relagao a urn conjunto de caracteristicas correlacionadas, e a 
distancia entre quaisquer pares de unidades amostrais, deve considerar o grau de 
dependencia entre as variaveis. A medida mais utilizada, para a quantificagao das 
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distances entre duas populagoes, quando existe repetigao de dados, e a distancia 
de Mahalanobis (D 2 ). 

Conforme Cruz (1990), ”a distancia de Mahalanobis, considera a 
variabilidade de cada unidade amostral, sendo recomendada para dados 
provenientes de delineamento experimentais, e, principalmente, quando as variaveis 
sao correlacionadas”. Quando as correlagoes entre as variaveis forem nulas, 
considera-se as variaveis padronizadas, e a distancia de Mahalanobis D 2 e 
equivalente a distancia euclidiana. 

A forma mais simples de explicar como obter tal medida e a forma matricial, 
sendo que essa medida entre duas unidades amostrais (tratamentos, individuos, 
populagoes), i e V , e fornecida pela notagao: 


D: =lx,.-x. IS’-Mx.-x. 


em que : 

X, = [x n , x a , , xj 

= [' ' x t2 , , x t 


(2.4) 


X. eX v , sao os vetores p-dimensionais de medias iev, respectivamente, com 


i ^ r e i ,i = 1 , 2, n. 

onde Sea matriz de dispersao amostral comum a todas as unidades que, no caso 
de delineamentos experimentais, trata-se da matriz de variancias e covariancias 
residuais. 

EmboraD^ seja o quadrado da distancia de Mahalanobis, sera chamado de 
distancia de Mahalanobis. 

Admitindo-se distribuigao multinormal p-dimensional, e homogeneidade na 
matriz de variancia-covariancia nas unidades amostrais, pode-se chamar distancia 
generalizada de Mahalanobis. 


• Coeficiente de Pearson 


Outra forma de estabelecer o conceito de distancia, entre os objetos, e 
atraves do Coeficiente de Correlagao de Pearson. 
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A medida de similaridade entre dois objetos R e T, denotada por S(R,T), 
deve satisfazer as seguintes propriedades: 

i) S(R, T) = S(T,R); 

ii) \S(R,T)\ > 0; 

iii) S(R,T) cresce a medida em que a semelhanga entre Re I cresce. 

O coeficiente de Pearson, entre os objetos R e T, e dado pela seguinte 
equagao: 


r 

u ’ 


LV,; -Al-r.x 


f 


I x i - 7 2X 

J P \ J J 


yi 2 .--yx 

y ' 7 p{j ' 


^ 2 


(2.5) 


Deve-se atentar para o fato de que o valor de r varia de -1 a +1 . 

Escolhida uma medida de distancia, ou de semelhanga, passa-se a escolher 
urn processo de agrupamento, ou aglomeragao. 

A escolha do metodo de agrupamento e tao dificil quanto a escolha do 
coeficiente de associagao. Dessa escolha dependera a correta classificagao de uma 
amostra estar dentro de urn grupo, ou de outro, que ja tenha sido formado. Os 
metodos de agrupamento foram desenvolvidos com base nos modelos e dados 
diversos. 

Ha grande quantidade de metodos de agrupamento. As diferengas entre os 
metodos existem em fungao de diferentes formas de definir proximidade entre urn 
individuo em urn grupo, contendo varios individuos, ou entre grupos de individuos. 

Na AA, nao se pode dizer que existe urn metodo que seja melhor para se 
aplicar. O pesquisador deve decidir qual sera o mais adequado para o 
desenvolvimento do seu trabalho, pois cada metodo leva a urn resultado. Os 
metodos de agrupamento mais utilizados sao os hierarquicos. 

Como se pode observar na Figura 05, os processos de agrupamento podem 
ser divididos em dois grupos: hierarquicos ou nao-hierarquicos. Conforme Malhotra 
(2001, p. 529), a aglomeragao hierarquica caracteriza-se pelo estabelecimento de 
uma hierarquia, ou estrutura em forma de arvore, sendo esta a mais utilizada. Os 
metodos hierarquicos sao divididos em aglomerativos e divisivos. 
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Figura 05 - Classificagao dos processos de aglomeragao. 
Fonte: Malhotra (2001, p. 531). 


O agrupamento aglomerativo tem imcio em um grupo separado. Formam-se 
os grupos reunindo-se os objetos em grupos cada vez maiores. O processo continua 
ate que todos os objetos sejam membros de um unico grupo, sendo esse metodo 
sequencial, onde os objetos sao reunidos um apos o outro, respeitando uma 
determinada sequencia de aglomeragao. O criterio basico da fusao entre um objeto 
e um grupo, ou entre dois grupos, e sempre o mesmo: serao reunidos os grupos que 
tern maior similaridade entre si. O problema e: como calcular esta similaridade? O 
metodo de calculo depende do metodo de aglomeragao escolhido 
(VALENTIN, 2000). 

No agrupamento divisivo, todos os objetos partem de um grupo gigante, e 
estes sao subdivididos em dois subgrupos, de tal forma que exista o maximo de 
semelhanga entre os objetos dos mesmos subgrupos e a maxima dissimilaridade 
entre elementos de subgrupos distintos. Esses subgrupos sao, posteriormente, 
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subdivididos em outros subgrupos dissimilares. 0 processo e repetido ate que haja 
tantos subgrupos quantos objetos (MALHOTRA, 2001). 

O procedimento basico, de todos os metodos aglomerativos de 
agrupamento, e similar. Inicia-se com o calculo de uma matriz de distancias entre as 
variaveis e finaliza-se com urn dendograma, no qual e possivel verificar as fusoes 
sucessivas dos individuos, ate os individuos formarem urn unico grupo (REGAZZI, 
2001 ). 

Os metodos aglomerativos sao de uso comum. Estes sao constituidos de 
metodos de encadeamento, metodos de erros de somas de quadrados, ou metodos 
de variancia e metodos centroides. 

Os metodos de encadeamento compreendem: 

O metodo do encadeamento unico (Single Linkage), que se baseia na 
distancia minima, regra do vizinho mais proximo. Os dois primeiros objetos 
agrupados sao os que apresentam menor distancia entre si. Identifica-se a menor 
distancia agrupando-se o terceiro objeto com os dois primeiros, ou formando urn 
novo grupo de dois objetos. Em cada estagio a distancia entre dois grupos e definida 
como a distancia entre seus dois pontos mais proximos. Dois grupos podem 
incorporar-se em cada estagio por meio do encadeamento mais curto entre eles. 
Continua-se o processo ate que todos os objetos, estejam em urn unico grupo. 

O metodo do encadeamento completo (Complete Linkage) e semelhante ao 
encadeamento unico, embora se baseie na distancia maxima entre os objetos ou o 
metodo do vizinho mais afastado. Neste, a distancia entre dois grupos e calculada 
entre seus dois pontos mais afastados. 


O metodo do encadeamento medio e semelhante aos metodos 
anteriores, embora a distancia entre dois grupos se defina como a media da 
distancia entre todos os pares de objetos, onde cada membra de urn par 
provem de cada urn dos grupos. No metodo de encadeamento medio sao 
utilizadas informagoes sobre todos os pares de distancias, e nao apenas da 
distancia minima ou maxima. Devido a este fato, e perfeito em relagao aos 
metodos de encadeamento unico e completo. 

Os metodos de variancia buscam gerar grupos que possam minimizar a 
variancia dentro destes grupos. Dentre estes metodos, esta o de Ward, que 
minimiza o quadrado da distancia euclidiana as medias dos grupos. Urn 
grupo sera reunido a urn outro se essa reuniao proporcionar o menor 
aumento da variancia intragrupo. Este metodo de variancia calcula as 
medias de todas as variaveis para cada grupo, escolhendo a que 
proporciona a menor variancia. Calcula-se entao, para cada objeto, o 
quadrado da distancia euclidiana, as medias do agrupamento, conforme 
Figura 04. Somam-se essas distancias para todos os objetos. Em cada 
estagio, combinam-se os dois grupos que apresentar menor aumento na 
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soma global de quadrados dentro dos agrupamentos. Este metodo e 
altamente eficiente na formagao de grupos. 

Outro metodo de variancia utilizado e o do Centroide, que considera que a 
distancia entre dois aglomerados e a distancia entre seus centroides, que 
nada mais e que a media para todas as variaveis. A cada agrupamento 
novo de objetos, deve-se calcular urn novo centroide. Dentre os metodos 
hierarquicos, os que tern se revelado superior em relagao aos outros sao o 
do encadeamento medio e o de Ward. 

A segunda forma de processo de aglomeragao esta nos metodos nao- 
hierarquicos, que se caracterizam por procurar maximizar a 
homogeneidade intragrupo, sem considerar a hierarquia entre grupos. Estes 
metodos costumam ser chamados de k medias ou k-means clustering, k- 
means clustering compreendem o limiar seqiiencial, o limiar paralelo e o 
particionamento otmizador. 

O metodo limiar seqiiencial consiste em escolher urn centra de 
aglomeragao, e todos os objetos a menos de urn valor pre-determinado a 
contar do centra sao agrupados juntamente. A partir dai, escolhe-se entao 
urn novo centra de aglomeragao, ou repete-se o processo para os pontos 
nao aglomerados. 

O metodo limiar paralelo escolhe de uma so vez varios centros de 
aglomeragao e os objetos dentro do limiar sao agrupados com o centra 
mais proximo. Todos os objetos que estao a menos de urn valor pre- 
determinado do centra sao agrupados juntamente. 

O metodo do particionamento otmizador difere dos anteriores, pois 
permite a redistribuigao posterior de objetos no agrupamento de modo a 
otimizar urn criterio global, tal como a distancia media dentro do grupo para 
urn dado numero de agrupamentos. 

A escolha de urn metodo de aglomeragao e a escolha de uma medida de 
distancia estao inter-relacionadas. Por exemplo, deve-se usar os quadrados 
das distancias euclidiana com os metodos de Ward e dos centroides 
(MALHOTRA, 2001, p.530 e 531). 


Neste trabalho, sao abordados apenas dois metodos, ou algoritmos de 
agrupamento, que sao: 

■ Metodo do encadeamento unico ( Single Linkage), ou, ainda, metodo do vizinho 
mais proximo. 

■ Metodo do encadeamento completo ( Complete Linkage), ou, ainda, metodo do 
vizinho mais distante. 


2.2 Analise de Componentes Principals - ACP 

A analise de componentes principais tern por objetivo descrever os dados 
contidos num quadro individuos-variaveis numericas: p variaveis serao mediadas 
com n individuos. Esta e considerada urn metodo fatorial, pois a redugao do numero 
de variaveis nao se faz por uma simples selegao de algumas variaveis, mas pela 
construgao de novas variaveis sinteticas, obtidas pela combinagao linear das 
variaveis inicias, por meio dos fatores (BOUROCHE, 1982). 
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A ACP e uma tecnica matematica da analise multivariada, que possibilita 
investigagoes com um grande numero de dados dispomveis. Possibilita, tambem, a 
identificagao das medidas responsaveis pelas maiores variagoes entre os resultados, 
sem perdas significativas de informagoes. Alem disso, transforma um conjunto 
original de variaveis em outro conjunto: os componentes principals (CP) de 
dimensoes equivalentes. Essa transformagao, em outro conjunto de variaveis, ocorre 
com a menor perda de informagao possivel, sendo que esta tambem busca eliminar 
algumas variaveis originais que possua pouca informagao. Essa redugao de 
variaveis so sera possivel se as p variaveis iniciais nao forem independentes e 
possuirem coeficientes de correlagao nao-nulos. 

A meta da analise de componentes principals e abordar aspectos como a 
geragao, a selegao e a interpretagao das componentes investigadas. Ainda 
pretende-se determinar as variaveis de maior influencia na formagao de cada 
componente, que serao utilizadas para estudos futuros, tais como de controle de 
qualidade, estudos ambientais, estudos populacionais entre outros. 

A ideia matematica do metodo e conhecida ha muito tempo, apesar do 
calculo das matrizes dos autovalores e autovetores nao ter sido possivel ate o 
advento da evolugao dos computadores. O seu desenvolvimento foi conduzido, em 
parte, pela necessidade de se analisar conjuntos de dados com muitas variaveis 
correlacionadas. 

Inicialmente, o objetivo da ACP foi o de encontrar linhas e pianos que melhor se 
ajustassem a um conjunto de pontos em um espago p-dimensional (PEARSON, 
1901). Posteriormente, um trabalho sobre o desempenho de estudantes foi avaliado 
por meio de uma sequencia de testes escolares, onde as variaveis utilizadas na sua 
maioria eram correlacionadas. Entao, a matriz de correlagao e a matriz de 
covariancia foram utilizadas para que fosse feita uma analise simultanea. Na epoca, 
quando um estudante apresentava boas notas nos testes aplicados, pensava-se que 
era porque ele possuia algum componente psicologico mais desenvolvido do que os 
outros, facilitando assim algumas tarefas. Na Psicologia moderna, as variaveis que 
apresentavam uma maior influencia foram chamadas de fatores mentais. Na 
Matematica, foram denominadas de fatores e, depois, elas receberam o nome de 
componentes para nao serem confundidas com o mesmo termo usado na 
matematica. A componente era determinada pela combinagao linear das variaveis 
que apresentassem a maior variabilidade na matriz de covariancia. Mais tarde, a 
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analise que encontrava estas componentes e que maximizava a variancia dos dados 
originais foi denominada por Hotelling de “Principal Component Analysis” 
(HOTELLING, 1933). 

Atualmente, um dos principals usos da ACP ocorre quando as variaveis sao 
originarias de processos em que diversas caracteristicas devem ser observadas ao 
mesmo tempo. Esta tecnica vem sendo estudada por autores como MORRISON 
(1976), SEBER (1984), REINSEL (1993), JACKSON (1980, 1981) e JOHNSON & 
WICHERN (1992, 1998). 

A ideia central da analise baseia-se na redugao do conjunto de dados a ser 
analisado, principalmente quando os dados sao constituidos de um grande numero 
de variaveis inter-relacionadas. Conforme Regazzi (2001, p.1), “procura-se 
redistribuir a variagao nas variaveis (eixos originais) de forma a obter o conjunto 
ortogonal de eixos nao correlacionados”. Essa redugao e feita transformando-se o 
conjunto de variaveis originais em um novo conjunto de variaveis que mantem, ao 
maximo, a variabilidade do conjunto. Isto e, com a menor perda possivel de 
informagao. Alem disso, esta tecnica nos permite o agrupamento de individuos 
similares mediante exames visuais, em dispersoes graficas no espago bi ou 
tridimensional, de facil interpretagao geometrica. A redugao de dimensionalidade e 
chamada de transformagao de karhunnen-Loeve, ou Analise de Componentes 
Principal, no qual os autovalores sao chamados de principal. 

Na pratica, o algoritmo baseia-se na matriz de variancia-covariancia, ou na 
matriz de correlagao, de onde sao extraidos os autovalores e os autovetores. 

A analise de componentes principals tern a finalidade de substituir um 
conjunto de variaveis correlacionadas por um conjunto de novas variaveis nao- 
correlacionadas, sendo essas combinagoes lineares das variaveis iniciais, e 
colocadas em ordem decrescente por suas variancias, VAR CPi > VAR CP 2 > .... > 
VAR CP p (VERDINELLI, 1980). 

As novas variaveis geradas denominam-se CP, e possuem independence 
estatistica e sao nao correlacionadas. Isso significa que, se as variaveis originais 
nao estao correlacionadas, as ACP nao oferece vantagem alguma. Variaveis 
dependentes quer dizer que o conhecimento de uma variavel importa para o 
conhecimento da outra (SOUZA, 2000). 

Para a determinagao das componentes principals, e necessario calcular a 
matriz de variancia-covariancia (Z), ou a matriz de correlagao ( R ), encontrar os 
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autovalores e os autovetores e, por fim, escrever as combinagoes lineares, que 
serao as novas variaveis, denominadas de componentes principais, sendo que cada 
componente principal e uma combinagao linear de todas as variaveis originais, 
independentes entre si e estimadas com o proposito de reter, em ordem de 
estimagao e em termos da variagao total, contida nos dados iniciais, 
(REGAZZI, 2001). 

O esquema descrito na Figura 06 servira de base para a aplicagao da ACP. 
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Analise de Componentes Principais 
Figura 06 - Esquema da aplicagao da analise de componentes principais. 

Fonte: SOUZA, Adriano Mendonga (2000, p.25). 


Supondo-se que na analise que se esta realizando exista apenas duas 
variaveis Xi e X 2 , conforme a Figura 07, observa-se o elipsoide de densidade de 
probabilidade constante. 



Figura 07 - Elipsoide de densidade constante. 
Fonte: LOPES (2001, p.31). 
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O primeiro componente corresponde ao maior eixo da elipse ( CP-i ), e o 
comprimento desse eixo e proporcional a . O eixo de menor variancia (CP 2 ) e 
perpendicular ao eixo maior. Esse eixo chama-se segundo componente principal, e 
seu comprimento e proporcional a ■ Assim, a analise das componentes 

principals toma os eixos X^ e X 2 e os coloca na diregao de maior variabilidade 
(JOHNSON & WICHERN, 1992). 

Para a geragao das componentes principals, deve-se ter uma matriz de 
dimensao n x p, na qual observa-se que X-i, X 2 ,...,X P representam as variaveis, e cada 
uma das n unidades experimentais representam os individuos, tratamentos, etc. O 
conjunto de n x p medida origina uma matriz X, conforme mostrado na Tabela 02. 

O primeiro estagio da ACP e a conversao da matriz n x p de dados em uma 
matriz quadrada, onde n e o numero de individuos e p representa urn conjunto de 
variaveis. 

Intuitivamente, percebe-se que, quanto maior for o numero de variaveis, e 
quanto mais estas forem interdependentes entre si (algumas tern variancia grande, 
algumas tern variancia media, e outras tern variancia pequena, e as correlagoes 
entre elas assumem valores muito diferentes entre si), sera mais facil comparar 
individuos baseando-se nos valores dessas variaveis, originais (REGAZZI, 2001). 
Essa interdependence e representada pela matriz de variancia-covariancia X, ou 
pela matriz de correlagao R. 


Tabela 02 - Matriz de dados de n individuos e p variaveis. 


Individuos 

Variaveis 

Xi 

X2 

X 3 

x 4 

Xj 

x p 

1 

Xu 

X12 

X13 

X14 

Xij 

Xip 

2 

X21 

X22 

X23 

X24 

X 2 j 

X 2p 

3 

X31 

X32 

X33 

X34 . . 

x 3j 

x 3p 


X„ 


X i; 


Xi, 


X M 


Xi 


x ir 


x n 


x n 


x n 


Xn 


Xn 


x, 


np 


Fonte: Regazzi 2001. 
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Seja 27 a matriz de variancia-covariancia associada ao vetor aleatorio 
X = [X?, X 2 ,...,X P \. Se 27 possuir o par de autovalores e autovetores estimados da 
amostra analisada, serao representados por (A 1? X,), (A 2 ,X 2 ), ... , (A p ,X p ) , onde 

Aj> A 2 > ... > A p > 0, e fornecerao o i-esimo componente principal dado por: 

Y j = x t X = x u X x + x 2i X 2 + ... + x pi X p , onde i =1, 2, ... , p. 

Com as escolhas de que: 

Var(Y i )=x;'^x l = A i i = 1, 2, ...., p 

Cov{Y i ,Y k ) = = 0 i,k= 1, 2 ,...., p 

Se algum A ( . e igual, a escolha do coeficiente do vetor correspondente X t 
tambem sera, e, entao, }^ nao e unico. 

Essa definigao mostra que os CP, sao nao correlacionados e possuem 
variancias iguais ao autovalor de 27 (JOHNSON & WICHERN, 1992). 

Para proceder a ACP, em casos populacionais, utiliza-se a matriz de 
variancia covariancia 27. Porem, quando se tratar de urn conjunto de dados 
amostrais, a matriz sera estimada atraves da matriz de variancia-covariancia 

amostral S, e o vetor media por X =[X I ,X 2 ,...,X p ] (SOUZA, 2000). 

E importante lembrar que, embora as tecnicas multivariadas que constam na 
literatura tenham sido criadas com o objetivo de resolver problemas especificos, 
como na area de biologia e psicologia, essas podem ser utilizadas para resolver 
muitos outros problemas praticos nas diversas areas do conhecimento. Na maioria 
das vezes, os objetivos desses problemas praticos so sao resolvidos mediante 
aplicagao de mais de uma tecnica multivariada, aplicadas em uma sequencia. 

Dessa forma, e interessante ter-se uma visao global de todas, ou quase 
todas, tecnicas multivariadas. Entre as tecnicas multivariadas mais utilizadas estao: 
analise de agrupamentos, analise de componentes principais, analise de 
discriminante, analise de correspondencia, dentre outras. 

Conforme Reis (1997), a aplicagao da ACP e AF deve incluir: 

• As variaveis incluidas na analise; 

• As percentagens da variancia explicadas por cada uma das componentes 
principais; 
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• O numero de componentes retidas e a proporgao de variancia total por elas 
explicada; 

• Uma tabela com a contribuigao de cada variavel para cada componente ( factor 
loadings), antes e depois de ser aplicado urn metodo de rotagao de fatores. 

• Fazer a interpretagao de cada componente principal retido. 

2.3 Analise Fatorial - AF - relacionada a analise de componentes principals - 
ACP 

A AF e formada por urn conjunto de tecnicas estatisticas, e possui como 
objetivo reduzir o numero de variaveis iniciais com a menor perda possivel de 
informagao. Em outras palavras, pode-se dizer que AF e aplicada a busca de 
identificagao de fatores num conjunto de medidas realizadas, sendo que esses 
fatores identificados pela AF sao uma descoberta feita pelo pesquisador. 
Inicialmente, ele tern varias medidas e nao sera possivel identificar quais variaveis 
poderao ser reunidas num fator. A AF e quern vai descobrir isso, pois ela permite 
identificar novas variaveis, em urn numero reduzido em relagao as variaveis iniciais, 
sem uma perda significativa de informagao contida nos dados originais. 

A versao classica da AF determina os fatores ortogonais que descrevem 
aproximadamente e sucessivamente os vetores-resposta de n individuos a urn 
conjunto constituido por m testes psicologicos. As primeiras pesquisas realizadas 
nesta area foram desenvolvidas por Karl Pearson (1901) e por Charles Spearman 
(1904). Sperman estudou a hipotese da existencia de urn so fator de inteligencia e 
da impossibilidade de medi-lo diretamente, ele desenvolveu esta analise para que 
fosse possivel estudar o fator inteligencia indiretamente a partir das correlagoes 
entre diferentes testes. Em 1947 Thurstone partiu da ideia inicial de Spearman e 
desenvolveu a AF, por acreditar que existe mais de urn fator de inteligencia. Essa 
analise permite identificar mais de urn fator nos dados iniciais. 

A AF nao se refere, apenas, a uma tecnica estatistica, mas a urn conjunto de 
tecnicas relacionadas, para tornar os dados observados mais claros para a 
interpretagao. Isso e feito analisando-se os inter-relacionamentos entre as variaveis, 
de tal modo que essas possam ser descritas convenientemente por urn grupo de 
categorias basicas, em numero menor que as variaveis originais, chamado fatores. 
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Os fatores podem ser denominados como um constructo, que pode ser uma 
variavel nao observada, escalas, itens, ou uma medida de qualquer especie. Na 
analise, fatores explicam a variancia das variaveis observadas, tal como se revelam 
pelas correlagoes entre as variaveis que estao sendo analisadas. 

Um dos metodos mais conhecidos, para a extragao dos fatores, e feito por 
meio da analise de componentes principais, que e baseado no pressuposto que se 

pode definir X vetores estatisticamente nao correlacionados, a partir de 
combinagoes lineares dos p indicadores iniciais. 

A ACP permite transformar um conjunto de variaveis iniciais, correlacionadas 
entre si, num outro conjunto de variaveis nao correlacionadas (ortogonais), que sao 
as componentes principais, que resultam das combinagoes lineares do conjunto 
inicial. 

Tanto a analise de componentes principais, quanto a analise fatorial, sao 
tecnicas da analise multivariada, que sao aplicadas a um conjunto de variaveis, para 
descobrir quais dessas sao mais relevantes, na composigao de cada fator, sendo 
estes independentes um dos outros. Os fatores, que sao gerados, sao utilizados de 
maneira representativa do processo em estudo e utilizados para analises futuras. 

O objetivo da ACP nao e explicar as correlagoes existentes entre as variaveis, 
mas encontrar fungoes matematicas, entre as variaveis iniciais, que expliquem o 
maximo possivel da variagao existente nos dados e permita descrever e reduzir 
essas variaveis. Ja a AF explica a estrutura das covariancias, entre as variaveis, 
utilizando um modelo estatistico casual e pressupondo a existencia de p variaveis 
nao-observadas e subjacentes aos dados. Os fatores expressam o que existe de 
comum nas variaveis originais (REIS, 1997). 

A AF e uma tecnica que e aplicada para identificar fatores num determinado 
conjunto de medidas realizadas, sendo utilizada, tambem, como uma ferramenta na 
tentativa de reduzir um grande conjunto de variaveis para um conjunto mais 
significativo, representado pelos fatores. Esse metodo determina quais variaveis 
pertencem a quais fatores, e o quanto cada variavel explica cada fator. 

Essas duas tecnicas, ACP e AF, sao sensiveis a correlagoes pobres entre 
variaveis, pois, neste caso, as variaveis nao apresentarao uma estrutura de ligagao 
entre elas. Logo, a correlagao sera fraca e prejudicara as analises, inviabilizando o 
uso da tecnica, que tern como objetivo principal o estudo de conjuntos de variaveis 
correlacionadas. 
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Quando se trabalha com AF, deve-se levar em consideragao que 
coeficientes de correlagao tendem a ser de menor confianga quando se faz calculos 
de estimativas de amostra pequenas. Em geral, o minimo e ter cinco casos, pelo 
menos, para cada variavel observada. 

O primeiro passo a ser realizado, quando se aplica AF, e verificar as 
relagoes entre as variaveis, que pode ser feito utilizando-se o coeficiente de 
correlagao linear como medida de associagao entre cada par de variaveis. Conforme 
Reis (1997), “a matriz de correlagao podera permitir identificar subconjuntos de 
variaveis que estao muito correlacionadas entre si no interior de cada subconjunto, 
mas pouco associadas a variaveis de outros subconjuntos”. Nesse caso, utilizar a 
tecnica de AF permitira concluir se e possivel explicar esse padrao de correlagoes 
mediante urn menor numero de variaveis. 

A AF e exploratoria, pois e utilizada com o objetivo de reduzir a dimensao 
dos dados, podendo, tambem, ser confirmatoria, se for utilizada para testar uma 
hipotese inicial de que os dados poderao ser reduzidos a uma determinada 
dimensao e de qual a distribuigao de variaveis, segundo essa dimensao 
(REIS, 1997). 

A ACP e a AF, quando utilizadas na forma direta, servem para a 
identificagao de grupos de variaveis inter-relacionadas e para a redugao do numero 
de variaveis. Em seu uso indireto e urn metodo que serve para transformar dados. A 
transformagao de dados ocorre atraves da reescrita dos mesmos, com propriedades 
que os dados originais nao tinham. 

Antes de aplicar a AF, deve-se levar em consideragao certas premissas 
sobre a natureza dos dados. Primeiramente, o pesquisador deve analisar a 
distribuigao de frequencia das variaveis atraves de testes de ajuste da normalidade 
(Kolmogorov-Smirnov), ou, ate, fazer urn simples exame de curvas da distribuigao. O 
pesquisador pode, ainda, fazer urn grafico de dispersao ( scatterplot ), fazendo urn 
contraste em relagao aos valores observados com os esperados numa distribuigao 
normal (PEREIRA, 2001). 

Ha, tambem, uma medida de adequagao dos dados, muito importante, 
sugerida por Kaiser-Meyer-Olkin Measure of Adequacy (KMO). O KMO serve para 
avaliar o valor de entrada das variaveis para o modelo, sendo que seu valor 
possibilita prover resultados no alcance de 0,5 a 0,9, se se obtiver valores nesse 
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intervalo, entao as variaveis podem ser utilizadas para realizar a AF. Para encontrar 
o valor do KMO, utiliza-se a expressao: 


KMO = 


Ul'-I + TFL a l 


i j i j 


( 2 . 6 ) 


sendo a razao da soma dos quadrados das correlagoes de todas as variaveis 
dividida por essa mesma soma, acrescida da soma dos quadrados das correlagoes 
parciais de todas as variaveis. 

Onde: 

r.j = e o coeficiente de correlagao observado entre as variaveis / e j. 
a tj = e o coeficiente de correlagao parcial entre as mesmas variaveis, que e, 
simultaneamente, uma estimativa das correlagoes entre os fatores. Os <7 (/ deverao 
estar proximos de zero, pelo fato de os fatores serem ortogonais entre si. 


Quando as correlagoes parciais forem muito baixas, o KMO tera valor 
mfnimo proximo ale indicara perfeita adequagao dos dados para analise 
fatorial". O teste do KMO possui valores que sao considerados criticos 
como se pode observar: 

• para valores na casa dos 0,90: a adequagao e considerada otima para 
os dados da AF ; 

• para valores na casa dos 0,80: a adequagao e considerada boa para os 
dados da AF] 

• para valores na casa dos 0,70: a adequagao e considerada razoavel 
para os dados da AF] 

• para valores na casa dos 0,60: a adequagao e considerada mediocre 
para os dados da AF] 

• para valores na casa dos 0,50 ou inferiores: a adequagao e considerada 
impropria para os dados da AF] 

O KMO e uma medida de adequagao que verifica o ajuste dos dados, 
utilizando todas as variaveis simultaneamente, e o seu resultado e uma 
informagao sintetica sobre os dados. 

Outro teste que podera ser utilizado para analise fatorial, que tambem 
verifica as premissas e o de Bartlett Test of Sphericity (BTS), que testa a 
hipotese da matriz de correlagao ser uma matriz identidade, ou seja, a 
diagonal principal igual a 1 e todos os outros valores serem zero, isto e, seu 
determinante e igual a 1. Isso significa que nao ha correlagao entre as 
variaveis. A hipotese nula podera ser rejeitada caso o a adotado for igual a 
5% e o valor encontrado for inferior ao valor de a. O teste de Bartlett na 
aplicagao da ACP pressupoe que se rejeite a hipotese nula: 

HO = P = I ou HO = Aj = A 2 = = k P (PEREIRA 2001, p. 124 e 125). 

A analise de correspondencia, a analise canonica e a analise fatorial 
discriminante sao, tambem, metodos fatoriais, que levam a representagoes graficas 
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e terao, por isso, tragos comuns com ACP. O que diferencia a ACP e que ela trata, 
exclusivamente, de variaveis numericas, que desempenham, todas, o mesmo papel, 
enquanto a analise de correspondence trata de variaveis qualitativas, nas analises 
canonicas e discriminante as variaveis sao repartidas em grupos bem distintos 
(BOUROCHE & SAPORTA, 1982). 

A AF possui, como principio, cada variavel pode ser decomposta em duas 
partes: uma parte comum e uma parte unica. A primeira e a parte da sua variagao 
partilhada com outras variaveis, enquanto a segunda e especifica da sua propria 
variagao. Dessa forma, uma diferenga entre os dois metodos parte do montante de 
variancia analisada, na qual a ACP considera a variagao total presente no conjunto 
das variaveis originais. Na AF, so e retida a variagao comum, partilhada por todas as 
variaveis (REIS, 1997). 

A base fundamental para a analise de fator comum ACP e AF e que as 
variaveis escolhidas podem ser transformadas em combinagoes lineares de urn 
conjunto de componentes (fatores) hipoteticos, ou despercebidos. Os fatores podem 
ser associados com uma variavel individual (fatores unicos), ou, ainda, associados 
com duas ou mais das variaveis originais (fatores comuns). As cargas sao 
responsaveis por relacionar a associagao especifica entre os fatores e as variaveis 
originais. Logo, pode-se concluir que o primeiro passo e encontrar as cargas e a 
solugao para os fatores, que aproximarao a relagao entre as variaveis originais e 
fatores encontrados, sendo que as cargas sao derivadas dos autovalores, que estao 
associados as variaveis individuais. 

Para ter-se uma melhor visualizagao das variaveis, que melhor representem 
cada fator, e realizada uma rotagao nos eixos, pois a AF busca colocar os fatores 
em uma posigao mais simples, com respeito as variaveis originais, que ajudam na 
interpretagao de fatores. Essa rotagao coloca os fatores em posigoes em que serao 
associadas so as variaveis relacionadas distintamente a urn fator. Existem varias 
rotagoes que podem ser realizadas para a matriz fatorial, varimax, quartimax e 
equimax. Sao todas as rotagoes ortogonais, enquanto as rotagoes obliquas sao nao- 
ortogonais. A rotagao varimax rotation busca minimizar o numero de variaveis com 
altas cargas num fator, ou seja, maximiza a variancia da carga e e, tambem, o mais 
utilizado. Conforme Pereira (2001), “a rotagao da matriz nao afeta a inercia 
(comunalidades) das variaveis nem a percentagem de variagoes explicadas pelos 
fatores”. 
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Antes de aplicar ACP e AF, o pesquisador deve tomar duas decisoes 
importantes que sao: o metodo a ser utilizado para a extragao dos fatores e o 
numero de fatores para serem extraidos. 

Antes se falar da interpretagao da AF, e importante ter claro dois o conceitos: 
o de ortogonalidade e o de carga fatorial. 

O primeiro esta relacionado com independence, no qual e deve haver 
dissociagao entre variaveis. E isso e conseguido quando se realiza a ACP, onde 
cada componente e independente da outra. Por isso, a ACP e, geralmente, utilizada 
como uma tecnica para se extrair fatores. 

O segundo conceito importante e o de carga fatorial. A matriz de cargas 
fatoriais e urn dos passos finais da analise fatorial. A carga fatorial e urn coeficiente: 
urn numero decimal, positivo ou negativo, geralmente menor do que urn, que 
expressa o quanto urn teste, ou variavel, observada, esta carregado, ou saturado, 
em urn fator. Entre outras palavras, pode-se dizer que: quanto maior for a carga em 
cima de urn fator, mais a variavel se identifica com o que quer que seja o fator. 

Em resumo, a AF e urn metodo para determinar o numero de fatores 
existente em urn conjunto de dados, e serve para determinar quais testes, ou 
variaveis, pertencem a quais fatores. 

A AF, em seus resultados, apresenta alguns conceitos que devem ser 
entendidos, para que haja uma interpretagao correta dos dados. Como neste 
trabalho utiliza-se o software statistica, os resultados sao apresentados com 
conceitos em lingua inglesa. Conforme Pereira (2001), conceitos da AF: 

• eigenvalue corresponde aos autovalores e a variancia total, que pode ser 
explicada pelo fator. Ou seja, avalia a contribuigao do fator ao modelo construido 
pela analise fatorial. Se a explicagao da variancia pelo fator for alta, existe uma 
alta explicagao desse fator ao modelo, se for baixa, existe uma baixa explicagao 
do fator ao modelo. 

• factor loading e a proporgao de variagao da variavel, que e explicada pelo fator, 
ou, ainda, o quanto cada variavel contribui na formagao de cada componente. 

• factor score sao os autovetores que definem as diregoes dos eixos da maxima 
variabilidade. Representam a medida assumida pelos objetos estudados na 
fungao derivada da analise. 

• Communality, e a medida de quanto da variancia, de uma variavel, e explicada 
pelos fatores derivados pela analise fatorial. Avalia a contribuigao da variavel ao 
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modelo construido pela AF, ou seja, o quanto cada variavel participa na formagao 
da outra. Nas communality, os valores mais altos sao os mais importantes para 
analise. 

• factor matrix e a matriz de correlagao entre as variaveis originals e os fatores 
encontrados. 

Para que se possa nomear os fatores, deve-se olhar a pontuagao dos 
mesmos, individualmente, e ver quais variaveis possuem as pontuagoes mais altas. 
Deve-se olhar, tambem, a pontuagao do fator, para ver se as interpretagoes iniciais 
sao confirmadas pela pontuagao do fator. 

A ACP adota a premissa de que a relagao entre variaveis e fatores e linear. 
Dessa forma, pode-se tentar interpretar urn eixo, seja graficamente, por regressao 
linear, entre as coordenadas das amostras e os autovetores de cada variavel, ou 
seja, pelo calculo de urn coeficiente de correlagao nao-parametrico (Spearman, por 
exemplo). 

Para que se possa resolver a equagao caracteristica, em AF, e necessario 
fazer a inversao de matriz, o que nao e possivel com uma matriz singular. 

A multicolinearidade e singularidade sao assuntos derivados de uma matriz 
de correlagao, com alto grau de correlagao entre as variaveis. A multicolinearidade 
acontece quando variaveis sao altamente correlacionadas, ou seja, acima de 0.90, o 
que e muito bom para a AF, e a singularidade acontece quando as variaveis sao 
perfeitamente correlacionadas. Com multicolinearidade, os efeitos sao aumentados, 
as variaveis independentes estao inter-relacionadas. Se a variavel e perfeitamente 
relacionada as outras variaveis, entao a singularidade esta presente. 

Raramente os resultados da AF sao todos publicados, pois nem todos 
possuem uma contribuigao significativa para a interpretagao dos dados e a 
elaboragao de conclusoes para o assunto que esta sendo abordado. 

Conforme Valentin (2000), as informagoes, que devem constar nas 
publicagoes, sao: 

• as dimensoes da matriz de dados: numero de variaveis e individuos; 

• a natureza dos dados e as transformagoes eventuais; 

• as figuras dos pianos fatoriais; 

• a necessidade de analises preliminares para testar a estabilidade e, se for 
preciso, eliminar certas variaveis ou observagoes. 
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Comentarios deste capitulo 

Nesse capitulo 2, abordou-se os conceitos de analise de agrupamentos, 
analise de componentes principals e analise fatorial, que servirao de base para o 
pleno desenvolvimento da aplicagao pratica. 

No capitulo 3, apresenta-se como estas tecnicas sao desenvolvidas 
manualmente. 
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3 COMPREENDENDO AS TECNICAS 


No capitulo 3, item 3.1, apresenta-se o desenvolvimento de exemplo praticos 
da analise de agrupamentos, que consiste na reuniao de elementos semelhantes. 
No item 3.2, mostra-se conceitos e aplicagao de exemplos praticos da analise de 
componentes principais, sendo que a principal meta, desta analise, e a redugao de 
dimensao das variaveis e a analise fatorial, que busca fatores abstratos para a 
representagao do conjunto de dados. 

3.1 Analise de agrupamentos 

Muitos algoritmos existem para formar os agrupamentos. Devido a existencia 
de varios criterios, para conceituar esses grupos, o pesquisador deve optar por 
aquele que for mais adequado a analise em estudo. 

Para aplicar a analise de agrupamento, neste trabalho, optou-se por 
apresentar os metodos de agrupamento hierarquicos aglomerativos, que tern infcio 
com urn grupo separado. Primeiramente, os objetos mais similares sao agrupados 
formando urn unico grupo. Eventualmente, o processo e repetido, e com o 
decrescimo da similaridade, todos os subgrupos sao agrupados, formando urn unico 
grupo com todos os objetos. 

O desenvolvimento da AA sera concentrado nos metodos hierarquicos 
aglomerativos ( Linkage Methods). Serao discutidos os metodos de ligagao simples 
(minima distancia ou vizinho mais proximo) e ligagao completa (maxima distancia, ou 
vizinho mais distante). 

Conforme Ferreira (1996), nas etapas a seguir, apresenta-se urn algoritmo 
geral para os agrupamentos hierarquicos aglomerativos com n objetos (itens, ou 
variaveis) 

• Iniciar o agrupamento com n grupos, cada urn com urn unico elemento, e com 
uma matriz simetrica nxn de dissimilaridades (distancias) D = {dm}. 

• Buscar na matriz D o par de grupos mais similar (menor distancia), e fazer a 
distancia entre os grupos mais similares U e V igual a duv. 

• Fundir os grupos U e V e nomea-los por (UV). Recalcular e rearranjar as 
distancias na matriz D: 

(a) eliminando as linhas e colunas correspondentes a U e V e 
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(b) acrescentando uma linha e coluna com as distancias, entre o grupo (UV) e os 
demais grupos. 

• Repetir os passos 2 e 3 num total de (n-1) vezes, ate que todos os objetos 
estejam em unico grupo. Anotar a identidade dos grupos, que vao sendo 
agrupados, e os respectivos niveis (distancias) nas quais isto ocorre. 

A seguir, esta o desenvolvimento da AA, pelos metodos referentes a ligagao 
simples e de ligagao completa. 

3.1.1 Metodo de encadeamento unico, ou por ligagao simples 




Figura 08 - Distancia minima entre os grupos. 


O metodo de encadeamento unico foi introduzido em taxonomia numerica 
por Florek et al. (1951, apud REGAZZI, 2001), no qual os grupos sao, inicialmente, 
constituidos cada urn de urn individuo, simplesmente, e sao reunidos de acordo com 
a proximidade dos elementos, e, entao, os individuos mais proximos sao fundidos. 
Esse metodo, que pode ser chamado, tambem, de salto minimo, ou vizinho mais 
proximo, e de concepgao simples, podendo ser realizado sem ajuda do computador. 

Na Tabela 03 apresenta-se cinco variaveis e quatro individuos. Desenvolve- 
se urn exemplo pratico do metodo de encadeamento unico. 

Para que seja possivel formar grupos com caracteristicas semelhantes, com 
os valores da Tabela 03, faz-se necessario estabelecer a medida de distancia que 
sera utilizada na analise. 


Tabela 03 - Numero de individuos com suas respectivas variaveis. 


Individuos 

Variavel 1 

Variavel 2 

Variavel 3 

Variavel 4 

Variavel 5 

1 

20 

5 

11 

7 

49 

2 

18 

9 

10 

2 

45 

3 

11 

35 

30 

15 

7 

4 

10 

3 

7 

4 

26 
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Neste exemplo, utilizar-se-a o metodo do encadeamento unico, sendo este 
uma medida da distancia euclidiana, que e um algoritmo de agrupamento. Para 
saber quais sao as menores distancias, e dar inicio a formagao dos grupos, faz-se 
necessario calcular estes valores conforme item 2.2: 

<arl,varl =^( 20 ~ 20) 2 +(18-18) 2 + (1 1-1 l) 2 +(10-10) 2 = 0 

<arl,var2=V( 5 - 20 ) 2 +( 9 -18) 2 +(35-ll) 2 +(3-10) 2 = 30,5 
flUva.3 = V(1 1 - 20) 2 + (1 0 - 1 8) 2 + (30 - 1 1) 2 + (7 - 1 0) 2 = 22,7 

<ar,var4=V(7-20) 2 +(2-18) 2 +(15-ll) 2 +(4-10) 2 = 21,8 

^ = V (49 — 20) 2 + (45 — 1 8) 2 +( 7 - 1 1) 2 +( 26 - 10) 2 = 49,9 
flUvari = V ( 2 °- 5) 2 +( 18 - 9) 2 +(1 1 - 35) 2 +( 10 - 3) 2 = 30,5 
d v ar2,var3 = V ( 1 1 - 1 5) 2 + ( 1 0 - 9) 2 + (30 - 35) 2 + (7 - 3) 2 = 8,8 
d v ar2,var4 = V (? S) 1 + (2 - 9) 2 + (1 5 - 35) 2 + (4 - 3) 2 = 2 1,3 
d v ar2,var 5 = J (49 - 5) 2 + ( 45 - 9) 2 + (7 - 35) 2 + (26 - 3) 2 = 67,4 

As demais distancias serao obtidas analogamente. 

Com todas as distancias calculadas, obteve-se a seguinte matriz de 
distancias euclidiana: 



1 

2 

3 

4 

5 

1 

" 0,0 

30,5 

22,7 

21,8 

42,9 

2 

- 

0,0 

8,8 

21,3 

67,4 

3 

- 

- 

0,0 

17,7 

59,7 

4 

- 

- 

- 

0,0 

64,5 

5 

- 

- 

- 

- 

0,0 


Para ilustrar o metodo da ligagao simples, os objetos menos distantes 
devem, inicialmente, ser agrupados. Entao, com essa matriz das distancias, e 
possivel dar inicio a formagao dos grupos, sendo que a menor distancia existente 
entre as duas variaveis distintas e 8,8, ou seja, este sera o primeiro grupo a ser 
formado. 
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4 

21,8 

21,3 

17,7 

0,0 


5 

42,9 

67.4 
59,7 

64.5 

0,0 


Como se pode verificar na matriz acima, a menor distancia esta na linha 2 e 
coluna 3, e sera representada por <7 23 = 8,8 , logo esses serao os primeiros 
individuos a serem agrupados, 2 e 3. 

A Figura 09 refere-se ao primeiro grupo formado da analise referente as 
variaveis 2 e 3. 



Figura 09- Primeiro grupo formado do agrupamento. 

A distancia existente entre esse grupo, e os grupos individuais 1 , 4 e 5, sera 
obtida pelo metodo do vizinho mais proximo, como segue: 

<7 (23)1 = mm{d 2l ,d u } = min {30,5; 22,7}= min <^ 13 = 22,7 

<7(23)4 = min{d 24 ,<7 43 }=min{21,3; 17,7} = min<7 43 = 17,7 
(7,2 3 ) 5 =min{<7 2 5 ,<7 53 } = niin{67,4; 59,7} = mim7 53 = 59,7 


Logo A ser 3 : 


D 2 = 


1 


1 (23 ) 

0,0 22,7 21 

QtQMI 


4 

5 


0,0 


8 42,9 
"" 59,7 
64,5 
0,0 


A segunda menor distancia esta na linha 23 e coluna 4, representada em D 3 
por d (23)4 = 17,7 , logo o individuo 4 sera incluido no grupo 2 e 3. 
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A Figura 08 refere-se ao segundo grupo, formado da analise, no qual esta 
sendo adicionada a variavel 4 ao grupo de variaveis ja formado anteriormente, 23. 



Figura 10 - Segundo grupo formado do agrupamento. 


As distancias serao obtidas pelo metodo do vizinho mais proximo, de forma 
analoga aos anteriores: 

d (234)1 = min{d (23)1 ,d 14 } = min{22,7; 21,8} = min d H = 21,8 
^< 234)5 =min{t/ (23)5 ,t/ 45 } = min{59,7; 64,5} = min <i (23)5 = 59,7 
1 (2^4 ) 5 


1 

"n n 

1 1 k 





D 3 = (234) - 0,0 59,7 

5 - - 0,0 


A terceira menor distancia esta na linha 1 e coluna 234, e sera representada 
pela matriz D 4 por d {234)1 = 21,8. Incluindo o individuo 1 no grupo (234). 

A Figura 1 1 refere-se ao terceiro grupo, formado da analise, no qual esta 
sendo adicionada a variavel 1 ao grupo de variaveis ja formado anteriormente (234). 



Figura 11 - Terceiro grupo formado do agrupamento. 


As distancias serao obtidas de forma analoga as anteriores: 


46 


^(i234)5 minjt/u , ^( 234 ) 5 } {42,9, 59,7} 42,9 


(1234) 


(1234 ) 5 

“0,0 42,9“ 

- 0,0 


A Figura 12 refere-se ao quarto grupo, formado da analise, no qual esta 
sendo adicionada a variavel 5 ao grupo de variaveis ja formado anteriormente 
(1234). 



Figura 12 - Quarto e ultimo grupo formado do agrupamento. 

Dessa forma, agrupa-se (1234) e 5, formando, assim, o ultimo grupo da 

analise. 

Segundo Valentin (2000, p. 56), o dendograma sera formado de acordo com 

os itens que seguem: 

• no eixo vertical sao colocados os valores das distancias, sendo que este 
dendograma inicia na distancia 5 e vai ate a distancia 45; 

• a Figura 13, chamado de dendograma, ou arvore de aglomerados, representa as 
variaveis que estao em estudo. 

• para compor o dendograma, deve-se buscar na matriz de distancias euclidianas o 
menor valor, ou a menor distancia, isto e, uma maior similaridade entre os 
elementos. Como ja calculado anteriormente, a menor distancia encontrada nessa 
matriz e 8,8. Esta entre as variaveis 2 e 3, que serao reunidas no dendograma na 
altura 8,8 formando, assim, o primeiro grupo I; 

• a segunda menor distancia e 17,7, que esta entre as variaveis 2 e 3, que ja 
pertence ao grupo I anteriormente formado, e a variavel 4. A variavel 4 deve, 
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entao, ser reunida no primeiro grupo, ao nivel de distancia de 17,7, formando, 
assim, o grupo II; 

• a proxima distancia e 21,8, que esta entre as variaveis 2, 3 e 4, que ja pertence 
ao primeiro grupo I, e a variavel 1. Como a variavel 3 pertence ao grupo I, ja 
ligado com a variavel 4, agrupa as variaveis do grupo I e do grupo II, formando, 
assim, o grupo III; 

• a proxima, e ultima distancia, e 42,9, que esta entre as variaveis 1, 2, 3 e 4, e a 
variavel 5, como a variavel 1 , ja esta ligada a outros grupos. Vai agrupar todos os 
grupos existentes, deixando, dessa forma, o dendograma completo, com urn 
grupo unico, agrupando, assim, todas as variaveis. 

No dendograma da Figura 13, a escala vertical indica o nivel de similaridade, 
e no eixo horizontal sao marcados os individuos, na ordem em que sao agrupados. 
As linhas verticals partem dos individuos, e tern altura correspondente ao nivel em 
que os individuos sao considerados semelhantes. 


Dendograma das variaveis 
Menor distancia Euclidiana 



Figura 13 - Dendograma da matriz de distances pelo metodo de ligagao simples, 
representado utilizando o programa computacional statistica. 


Observando a Figura 13, e possivel verificar que o maior salto encontra-se 
entre as alturas 21,8 e 42,9. Se fizer urn corte no grafico, representado pela linha 
horizontal entre as alturas 21,8 e 42,9do eixo vertical da distancia entre grupos, 
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passarao a existir dois grupos homogeneos distintos: o primeiro grupo, formado 
pelas variaveis de um, dois, tres e quatro, que e representado pela elipse em 
vermelho e o segundo grupo, formado pela quinta variavel, representado pelo 
circulo, sendo essa variavel distinta das demais, pelo fato de ter formado um grupo 
isolado, isso significa dizer que esta variavel e heterogenea em relagao as outras. 

Esses grupos foram definidos pelo tragado de uma linha paralela ao eixo 
horizontal, denominada “Linha Fenon”. Optou-se por tragar essa linha entre as 
alturas 21,8 e 42,9, que representam as distancias euclidianas de ligagao entre as 
vaiaveis. 

O metodo do vizinho mais proximo pode ser resumido da seguinte forma, 
como mostra a Tabela 04: 


Tabela 04 - Resultado da analise de agrupamentos, pelo metodo do vizinho mais proximo. 


Passo 

Jungao 

Niveis 

1 

2,3 

8,8 

2 

23,4 

17,7 

3 

234,1 

21,8 

4 

1234,5 

42,9 


Em razao da sua simplicidade, esse metodo apresenta grande 
desvantagem. O fato de reunir um objeto ao elemento “mais proximo” do grupo ja 
formado, faz com que os objetos intermediaries entre os grupos sejam rapidamente 
aglomerados a esses. Ocorre, entao, um encadeamento de objetos que dificulta a 
separagao dos grupos. Nos estudos, ecologicos em que as amostras de 
caracteristicas intermediarias sao geralmente numerosas, esse metodo deve ser 
evitado (VALENTIN, 2000). 
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3.1.2 Metodo de encadeamento completo ou por ligagao completa 



Figura 14 - Distancia maxima entre grupos. 

Esse metodo foi introduzido em 1948, sendo exatamente o oposto ao 
metodo do vizinho mais proximo, em que a distancia entre grupos sera definida 
como a distancia entre os pares de individuos mais distantes. 

Aqui, a distancia entre dois grupos e definida pelos objetos de cada grupo 
que estao mais distantes. Ou seja, formam-se todos os pares com urn membro de 
cada grupo. A distancia entre os grupos e definida pelo par que possuir maior 
distancia (BUSSAB et al, 1990). 

E importante ressaltar que a uniao ainda e feita com os grupos mais 
parecidos, ou seja, a menor distancia. Para ilustrar, serao utilizados neste exemplo 
os dados referentes a Tabela 03, considerando-se a mesma matriz de 
dissimilaridade D do exemplo anterior. Inicialmente, serao agrupados os dois objetos 
menos distantes. Entao, o dendograma sera construido atraves do metodo do 
encadeamento completo, ou do vizinho mais distante. 



4 5 

21,8 42,9 
21,3 67,4 
17,7 59,7 
0,0 64,5 

0,0 


Observando a matriz D x , a menor distancia esta no elemento da linha 2 e 
coluna 3. Esta distancia e representado por d 22 = 8,8, logo, esses serao os primeiros 

individuos a serem agrupados 2 e 3. A distancia existente entre esse grupo, e os 
grupos individuals 1, 4 e 5, serao obtidas pelo metodo do vizinho mais distante, 
conforme segue: 

= max{<7 21 ,<7 13 } = max{30,5, 22,7} = ma xd 2l = 30,5 
<7(23)4 = max {<7 24 , <7 43 }= max {2 1,3, 17,7} = max<7 24 = 21,3 
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<7 , 23)5 =max{J 25 ,(/ 53 } = max{67,4, 59,7} = max d 25 = 67,4 


Logo A sera: 



5 

42,9 

67.4 

64.5 
0,0 


A menor distancia em D 2 e o elemento que esta localizado na linha 23 e 
coluna 4. Este elemento e representado pela distancia d (23)4 = 21,3 , logo o individuo 

4 sera incluido no grupo 2 e 3. As distancias serao obtidas pelo metodo do vizinho 
mais distante, de forma analoga ao anterior: 

Am,! =max{<7 (23)1 , J 14 } = max{30,5, 21,8} = max<7 (23)1 = 30,5 

(7(2 3 4) 5 = max {<7( 23 ) 5 , <7 45 } = max {67, 4, 64,5} = max< 7 {23) 5 = 67,4 


1 ( 234 ) 


Hr 


A = (234) 


■ 6 : 6 - 


H0,5 


- 0,0 


5 

42,9 

67,4 

0,0 


A menor distancia da matriz D 3 e o elemento da linha 1 e coluna 234. Essa 
distancia e dada por d (234)1 =30,5 incluindo, assim, o individuo 1 no grupo (234), e as 

distancias serao obtidas pelo metodo do vizinho mais distante, da mesma forma que 
as anteriores: 

<7(1234)5 =max{<7 15 , <7,234)5 }=max {42, 9, 67,4} = max < 7 , 234,5 =67,4 

(1234) 5 
0,0 67,4" 

- 0,0 


(1234) 


Dessa forma, agruparam-se os individuos (1234) e 5, formando, assim, o 
ultimo grupo do dendograma. A Figura 15 representa o dendograma vertical da 
matriz de distancias, pelo metodo de ligagao completa. 
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Dendograma das variaveis 
Maior distancia Euclidiana 



Figura 15 - Dendograma da matriz de distancias pelo metodo de ligagao completa. 


Para analisar esse dendograma, deve-se ter cuidado, pois a uniao de dois 
grupos depende do par de objetos mais distantes. Pode-se dizer que um elemento 
unir-se-a a um grupo unicamente se for ligado a todos os elementos desse grupo. 

Observando-se a Figura 15, e possivel verificar que o maior salto esta na 
ultima etapa, se se fizer um corte no grafico entre a altura 30,5 e 67,4 ter-se-a dois 
grupos homogeneos distintos. O primeiro grupo sera formado pelas variaveis de um 
a quatro, representado pela elipse, o segundo grupo sera formado pela quinta 
variavel, representado pelo circulo, sendo que esta variavel e distinta das demais, 
pelo fato de ter formado um grupo isolado. 

Comparando-se os resultados alcangados, e apresentados nas Figuras 13 e 
15, pode-se notar que os dendrogramas, para o metodo do vizinho mais proximo e 
do vizinho mais distante, nao diferem na alocagao dos objetos, para esse exemplo 
em particular. 

Os algoritmos vistos produzem grupos que constituem uma proposigao sobre 
a organizagao basica e desconhecida dos dados. Entretanto, eles esbarram em uma 
dificuldade, que e a determinagao do numero ideal de grupos a serem formados 
(REGAZZI, 2001). 
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Tabela 05 - Resumo do metodo do vizinho mais distante. 


Passo 

Jungao 

Nivel 

1 

2,3 

8,8 

2 

23,4 

21,3 

3 

234,1 

30,5 

4 

1234,5 

67,4 


3.1.3 Como escolher o melhor metodo? 

Ate hoje nao se sabe muito a respeito de qual tecnica e a mais adequada 
para aplicar para certo tipo de dados. Independente do metodo usado para resumir 
os dados, e importante que sejam efetuadas medidas do grau de ajuste entre a 
matriz original dos coeficientes de distancia e a matriz resultante do processo de 
agrupamento ROHLF (1970, apud REGAZZI, 2001). Sendo que, quanto maior for o 
grau de ajuste, menor sera a distorgao ocasionada pelo metodo. Alguns autores 
consideram que acima de 7,0 o grau e considerado bom, e que abaixo de 7,0 existe 
inadequagao no metodo de agrupamento, para resumir a informagao do conjunto de 
dados. 

Segundo Valentin (2000, p.60), “urn metodo e melhor que outro quando o 
dendograma fornece uma imagem menos distorcida da realidade”. Pode-se avaliar o 
grau de deformagao provocado pela construgao do dendograma atraves do 
“coeficiente de correlagao cofenetico”, que serve para medir o grau de ajuste entre a 
matriz de dissimilaridade (matriz fenetica F) e a matriz resultante da simplificagao 
proporcionada pelo metodo de agrupamento (matriz cofenetica C). 

Esse coeficiente de correlagao cofenetico e o coeficiente r de Pearson, 
sendo calculado entre indices de similaridade da matriz original e os indices 
reconstituidos com base no dendograma. Logo, quanto maior for o r, menor sera a 
distorgao. Conforme Valentim (2000, p.60), “ha sempre urn certo grau de distorgao, 
pois o rnunca sera igual a 1”. 

O coeficiente de correlagao momento produto e dado pela seguinte 


expressao: 
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z ik-ch-f) 


j= i j-=j + 1 


i 


n - 1 n / \ z n - 1 n / \_ 

Z zk-f ,1 Z (/„ -/) 


j = 1 /=y'+i 


[y=i j j . i 


onde c e f sao as medias aritmeticas, definidas por: 


(3.1) 


(3.2) 

c , 

c=- — - — , 
n 

/ = 

n 

A Tabela 06 mostra o rendimento de quatro variedades de milho em quatro 
colheitas diferentes. Utilizar-se-a estes dados para desenvolver um exemplo pratico 
do coeficiente de correlagao cofenetico. 


Tabela 06 - Rendimento de quatro variedades de milho em quatro colheitas. 


Caracteristicas 

Individuos 

1 a colheita 

2 a colheita 

3 a colheita 

4 a colheita 

Premium 

22,00 

24,00 

20,00 

26,00 

AG_9020 

20,00 

19,00 

22,00 

25,00 

AG_9090 

24,00 

20,00 

28,00 

23,00 

Agroeste 

21,00 

26,00 

24,00 

25,00 


Z f, 


z 


Para que seja possivel calcular os valores da matriz cofenetica C, faz-se 
necessario estabelecer a medida de distancia que sera utilizada na analise. 

Neste exemplo, utilizar-se-a o metodo do encadeamento unico, sendo este 
uma medida da distancia euclidiana media, que e um algoritmo de agrupamento. 
Para calcular os valores da distancia euclidiana media, utiliza-se a expressao do 
item 2.3. 

d n =^[(22-22) 3 +(20-20) 2 +(24-24) 2 +(21-21) 2 ] = 0 
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d n = ^[(24-22) 2 +(19-20) 2 +(20-24) 2 +(26-21) 2 ] = 3,39 
d n =^[(20-22) 2 +(22-20) 2 +(28-24) 2 +(24-21) 2 ] = 2,87 


*14 


= -[(26-22) 2 + (25 — 20) 2 + (23 - 24) 2 + (25 - 2 1) 2 ] 


3,81 


As demais distancias sao obtidas de forma analoga, sendo que a matriz de 
distancias D { , ou seja, a matriz fenetica de Fe dada por: 


D,=F = 



1 2 

f 

1 

r r\ o on 

? fil? 




2 

- 0 

4,82 

3 

- - 

0 

4 

- - 

- 


4 

3,81 

3,54 

4,21 

0 


Na matriz D l: a menor distancia esta localizado na linha 1 e coluna 3. Essa 
distancia e dada por <7 13 =2,87, logo, os individuos 1 e 3 irao formar urn grupo, 
sendo que as distancias serao dadas por: 

d [n)2 =mm{d lv d 2i }= {3,39, 4,82} = min d 2l =3,39 

d (U)4 = min {d 4V d 4i } = {3,81, 4,21} = min d AX =3,81 

Logo a matriz A sera: 



Observando-se a matriz D 2 , e possivel verificar que a menor distancia e o 
elemento localizado na linha 13 e coluna 2, sendo que esta e dada por ^( 13)2 —3,39 . 

Logo, o individuo 2 sera incluido no grupo de 1 e 3. Nesta etapa serao agrupadas as 
variaveis (123) e 4, formando, dessa maneira, urn unico grupo. 

(i(i 2 3)4 =min{(i(i 3 ) 2 ,(i 42 }= min{3, 81, 3,54} = min d 42 =3,54 . 

Logo: 
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A = 


( 123 ) 4 

( 123)[0 3 , 54 " 
4-0 


Pode-se fazer um resumo desse metodo, do vizinho mais proximo, atraves 
da Tabela 07. 


Tabela 07 - Resumo do metodo do vizinho mais proximo. 


Passos 

Jungao 

Nivel 

1 

1,3 

2,87 

2 

13,2 

3,39 

3 

123,4 

3,54 


O dendograma da Figura 16 mostra os grupos formados com os dados da 
Tabela 06: 


Dendograma das variaveis 
Menor distancia Euclidiana 



Fiqura 16 - Dendograma da matriz de distancias pelo metodo de liqacao simples. 


Esse dendograma formou tres grupos distintos, no qual o grupo 
representado pela elipse maior e engloba a primeira e a terceira colheita. Devido a 
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isso, pode-se dizer que essas duas variaveis sao semelhantes entre si. Ja as 
variaveis que representam a segunda e a quarta colheita formaram dois grupos 
distintos entre si e entre o primeiro grupo formado, por se manterem isoladas das 
demais. Pois ao se realizar um corte na altura proximo a 6,4 do eixo vertical, 
distancia entre grupos, verifica-se que ficam suspensos tres grupos e que nao terao 
ligagao entre si. 

As menores distancias encontradas, atraves do metodo do vizinho mais 
proximo, serao utilizadas para compor a matriz cofenetica. Essas distancias 
encontradas passam a formar as linhas e as colunas dessa matriz. Logo, o elemento 
2,87 estara localizado na linha 1 e coluna 3 da matriz cofenetica. Ja o elemento da 
3,39 estara localizado na linha 1 e coluna 2, e na linha 2 e coluna 3 da matriz 
cofenetica. O elemento 3,54 estara localizado nas seguintes linhas e seguintes 
colunas: linha 1 e coluna 4, linha 2 e coluna 4, linha 3 e coluna 4, formando, assim, a 
matriz cofenetica C. 

(1,3) = 2,87 

(13,2) = 1,2 e 2,3 = 3,39 
(123,4) = 1,4; 2,4; 3,4 = 3,54. 

Logo, a matriz cofenetica C e composta pelos seguintes elementos: 

3,39 2,87 3 , 54 " 

- - 3,39 3,54 

C= 

- - 3,54 


A partir dos valores da matriz cofenetica C, passa-se a calcular o coeficiente 
de correlagao cofenetica dado por: 

Tabela 08 - Valores corresp ondentes a matriz fenetica e cofenetica. 


F 

C 

3,39 

3,39 

2,87 

2,87 

3,81 

3,54 

4,82 

3,39 

3,54 

3,54 

4,21 

3,54 
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onde: 

F = matriz fenetica, na qual seus valores foram obtidos junto a matriz inicial das 
distancias. 

C = matriz cofenetica, na qual os valores sao obtidos junto a matriz final das 
distancias, pelo metodo do vizinho mais proximo. 

Para obter o coeficiente de correlagao cofenetico, deve-se calcular os 
valores da media e desvio padrao das matrizes fenetica e cofenetica. 

A media da matriz fenetica, e calculada mediante a expressao do item 3.3. 


? 3,39 + 2,87 + 3,81 + 4,82 + 3 , 54 + 4,21 _ 0 

J — , - o,f f. 


A expressao 3.5 refere-se a variancia da matriz fenetica. 


2 _ i=l 


S? = 


(x 1 -xJ + (x 2 -xJ + ... + (X'-xJ 


(3.4) 


n — 1 


n — 1 


^2 = ( 3,39 - 3 , 77) 2 + ( 2,87 - 3 , 77) 2 + + ( 4,21 - 3 , 77) 2 _ Q 40 

F 6-1 


O desvio padrao da matriz fenetica sera dado por: 


s ,=1 


_ {x l -xJ + (x 2 -xJ+...+(x n -xJ 

n — 1 V n - 1 


(3.5) 


S F =^0, 46 = 0,68. 


A media da matriz cofenetica, e calculada mediante a expressao do item 3.2. 

_ 3,39 + 2,87 + 3,54 + 3,39 + 3,54 + 3,54 _ 

c = = 3,38. 

6 

Variancia da matriz cofenetica. 

= ( 3,39 - 3 , 38) 2 + ( 2,87 - 3 , 38) 2 + + ( 3,54 - 3 , 38) 2 _ Q QJ 

F 6-1 

O desvio padrao da matriz cofenetica sera dado por: 


S c =-j0 , 07 = 0,26. 
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A medida de correlagao e dada pela covariancia entre as duas variaveis, 
definida por: 


Cov FC 


1 

n -1 


Yj x -y 


n 


(3.6) 


= 3,39.3,39 + 2,87.2,87 + 3,81 .3,54 + 4,82.3,39 + 3,54.3,54 + 4,21 .3,54 
2> = 76,99 
J> = 22,64 

I> = 20,27, 

logo a Cov FC e dada por: 


Cov FC = 


6 -1 


76,99 - 


22,64.20,27" 


= 0 , 10 . 


Sendo mais conveniente usar, para medida de correlagao cofenetica, o 
coeficiente de correlagao linear de Pearson, definida por: 


Cov( F,C ) (3.7) 

r cof r FC n: 

]V(F).V(C) 


r = 0 56 

co/ ^(0,46)(0,07) 

Como r cof =0,56 < 0,7, pode-se concluir que o metodo utilizado nao foi 

adequado para resumir a informagao ao conjunto de dados. Logo, deve-se utilizar 
outros metodos para fazer a analise dos dados. 


3.1.4 Interpretagao do dendograma 

Existem tres regras de bolso, que se deve utilizar para interpretar urn 
dendograma, Valentim (2000, p.61). 
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• escrever no proprio dendograma, em frente de cada amostra, as suas 
caracteristicas, tudo o que podera revelar os aspectos comuns entre as amostras 
de um mesmo grupo e as diferengas com as amostras de outro grupo; 

• Comegar a “ler” o dendograma dos baixos valores de similaridade, para os 
maiores. Assim, deverao ser interpretados, em primeiro lugar, os “grandes 
grupos”, geralmente poucos numerosos, pois seria em vao tentar explicar os 
grupos menores sem ter conseguido formular, antes, uma hipotese plausivel 
sobre os grandes; 

• Quando e possivel, desenvolver, paralelamente, com os mesmos dados, uma 
analise de ordenagao, que evidenciara os fatores responsaveis pelos 
agrupamentos. 

3.2 Analise de Componentes Principals 

Para aplicar a analise de componentes principals, deve-se seguir algumas 
etapas ate obter-se o resultado final. 

Inicialmente, calcula-se a matriz S, ou a matriz R, e verifica-se se as 
variaveis estao correlacionadas umas em relagao as outras. Caso nao estejam, 
deve-se aplicar o teste do KMO, ou fazer um teste que verifique se as correlagoes 
entre as variaveis sao significativas, ou nao, para verificar se e possivel proceder a 
analise dos dados aplicando esta tecnica. 

O pesquisador deve verificar, tambem, se as variaveis foram medidas em 
escalas diferentes. Deve-se proceder a padronizagao das mesmas, para evitar erros 
nos resultados. 

Na etapa seguinte, decide-se pelo numero total de componentes que melhor 
explicarao o conjunto de variaveis originais. Existem duas formas de selecionar 
esses componentes: 

• Mediante os autovalores, pelo criterio sugerido por KAISER (1960) apud MARDIA 
(1979), que consiste em incluir somente aquelas componentes cujos valores 
proprios sejam superiores a 1. Este criterio tende a incluir poucas componentes 
quando o numero de variaveis originais e inferior a vinte e, em geral, utiliza-se 
aquelas componentes que conseguem sintetizar uma variancia acumulada em 
torno de 70%. 
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• Atraves do metodo grafico, este criterio considera as componentes anteriores ao 
ponto de inflexao da curva. Foi sugerido por CATTEL (1966) e exemplificado por 
PLA (1986). 

Decidido o numero de componentes, passa-se a encontrar os autovetores 
que irao compor as combinagoes lineares, que irao formar as novas variaveis. 

A ultima etapa sera fazer normalizagao e a ortogonalizagao dos autovetores, 
para garantir solugao unica as componentes principals e, tambem, que estas sejam 
independentes umas das outras. 

Matriz de variancia-covariancia 


A matriz de variancia-covariancia e expressa pelas ligagoes realizadas entre 

as p variaveis, tomadas duas a duas sendo, resumidas por suas covariancias s tj . 

Conforme Regazzi (2001), considerando as variaveis Xi, X 2 , Xp, denota- 
se a matriz de covariancia por S da seguinte forma: 


Vdr(X t ) Cov(X 1 ,X 2 ) 
Cov(X lf X 2 ) Vdr(X 2 ) 


Cov( X t ,X p ) 
Cov(X 2 , X p ) 


s; 


ou s 


Cov(X I ,X p ) C6 v(X 2 ,X p ) Vdr(X p ) 


K 

S 2 P 

s >. 


(3.8) 


sendo que o conjunto de variancia-covariancia esta representado na matriz S, 
chamada matriz de variancia-covariancia das p variaveis. O termo situado na 

intercessao da i-esima linha e da j-esima coluna e a covariancia de ( 5 ,y), e os 
termos da diagonal principal sao as variancias (^ ; 2 ). 

1 

n — 1 






2 i = 1 


i = 1 


(3.9) 


Vdr(Xj) 


n 
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C6v(Xj,X ) = 


n - 1 


n 

tl s I. 

‘J i 


( n Y » > 

E-V Et, 

v /= i A ,=1 J 


(3.10) 


Observando-se a matriz S, pode-se concluir que e uma matriz quadrada de 
ordem p x p, simetrica, pois s tJ = s jt . 

A seguir, representa-se um exemplo pratico dos procedimentos, para 
calcular a matriz S, utilizando-se os dados da Tabela 09, referentes a duas variaveis 
X e Y, sendo estas mensuradas em uma amostra constituida de cinco observagoes 
(individuos). 

Tabela 09 - Ob servagoes relativas a duas variaveis X e Y avaliadas em cinco individu os. 


Observagoes 

Metodo X 

Metodo Y 

1 

10,0 

10,7 

2 

10,4 

9,8 

3 

9,7 

10,0 

4 

9,7 

10,1 

5 

11,7 

11,5 


O primeiro procedimento a ser realizado sera a analise descritiva nas duas 
variaveis, sendo que os resultados obtidos serao utilizados na analise subsequente, 
para constituir a matriz S. 

A Tabela 10 refere-se a estatistica descritiva relativa as duas variaveis que 
estao sendo utilizadas na analise. 


Tabela 10- Estatistica descritiva relativa a duas variaveis, avaliadas em cinco individuos. 



Metodo X 

Metodo Y 

Media aritmetica das variaveis 

10,3 

10,42 

Somatorio ao quadrado das variaveis 

533,23 

544,79 

Somatorio das variaveis 

51,5 

52,1 

Variancia amostral das variaveis 

0,70 

0,48 

Desvio padrao amostral das variaveis 

0,84 

0,69 


A matriz de variancia e covariancia S e estimada conforme item 3.8. 
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Como pela estatistica descritiva ja foram encontrados os valores de S 2 e 


S 2 , deve-se calcular o valor da covariancia entre x e y, que serao fornecidos atraves 


do item 3.10. 

Substituindo-se os dados na expressao, tem-se que: 


Cov{x,y ) = 


1 


5-1 


538,44 - 


51,5.52,1 


Cov(x,y) = ^[538,4 - 536,63] = 0,45. 


Logo, a matriz S e assim constituida: 

0,69 0,45“ 

0,45 0,48 


• Matriz de correlagao 


A matriz de correlagao e utilizada quando se necessita de uma padronizagao 
dos dados, evitando-se problemas como a influencia da magnitude das variaveis 
SOUZA (2000, apud JACKSON, 1981). 

Considerando-se X 1 ,X 2 ,....,X , as variaveis originais, a estimativa da 

matriz de correlagao (que e igual a estimativa da matriz de variancia-covariancia 
entre as variaveis padronizadas Z,,Z 2 , ,Z p ) e denotada por R, da seguinte forma: 


“ 1 

r n ■ 

■ ' 'l / 

r n 

1 

• • r 2p 

_ r i P 

r 2 P ■ 

. . 1 


na qual: 

Cdv(X j ,X.) 
Var(Xj)yar(X ) 


= r(X .,X ) =Cov(Z ,Z ) = 


(3.11) 


(3.12) 


Como e possivel de se observar, os termos da diagonal principal na matriz 
de correlagao R valem, todos, 1, pois a correlagao entre r n , r 22 , , r np e igual a 1 . 

para j = 1,2, , p. 
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A matriz R e uma matriz quadrada de ordem p x p, simetrica em relagao a 
diagonal principal, pois r tj = r jt . 

Ainda utilizando os dados da Tabela 09, faz-se um exemplo pratico com 
todos os procedimentos necessarios para constituir a matriz de correlagao R, 
referente ao item 3.1 1 : 

Para ilustrar os calculos, apresenta-se, a seguir, a correlagao entre X e Y, 
utilizando-se a expressao do item 3.12. 

Substituindo-se, na expressao, os valores da covariancia entre X e Y e 
S x , S y , ja calculados anteriormente, junto ao exemplo da matriz de S, obtem-se a 

correlagao de r n e r 2l : 

r n = 0,45 = 0,79. 

0 , 83 . 0,69 

Como a correlagao entre r n = r 2l = r xy , logo r u = r 22 = r xy tambem sao 

equivalentes, calculando-se, apenas uma das correlagoes, obtem-se o valor da 
outra. 


CdvjX^X,) 

s x .s x 



(3.13) 


_ 0 , 83 2 _ 
~ 0 , 83 2 ~ 


Logo, a matriz de correlagao R sera assim constituida: 


R = 


1 

0,79 


0,79 

1 


A solugao, utilizando-se a matriz de correlagao, e recomendada quando as 
variaveis sao medidas em escalas muito diferentes entre si, pois essa matriz e 
equivalente a matriz das variaveis padronizadas, (JOHNSON & WICHERN, 1992). 



64 


Detalha-se a partir de agora um exemplo numerico para o calculo das 
componentes principals, mediante a matriz S e R. 

Segundo Magnusson & Maurao (2003, p. 1 06), “estabelecendo-se algumas 
premissas importantes e usualmente improvaveis, e possivel determinar a posigao 
dos eixos no espago multidimensional usando-se a algebra de matrizes”. 

As analises baseadas nesse principio sao chamadas de analises de “auto- 
vetores”, sendo que “Eigen” e uma palavra da lingua alema, que significa 
“caracteristica”. 

O escalar A sera chamado de autovalor, e o vetor x um autovetor. 

Seja S a matriz de variancia-covariancia quadrada p x p, e / a matriz 
identidade p x p, entao os escalares A 15 A 2 ,....,A satisfazem a equagao polinomial. 


5 



(3.14) 


sao chamados autovalores, ou raizes caracteristicas, da matriz S. 

Seja S a matriz de variancia-covariancia de dimensao p x p, e seja A um 
autovalor de S. Logo x e um vetor nao nulo (x* 0), tal que: 

si = AX, ( 3 - 15 ) 


no qual, X e uma matriz p x p de todos autovetores, e A e uma matriz p x p de todos 
autovalores. 

Entao x e dito autovetor ou vetor caracteristico da matriz S, associada com 


o valor A . 

Para determinar as componentes principals, a partir da matriz S, procede-se 
da seguinte forma: 

a) Resolve-se a seguinte equagao caracteristica para obter a solugao: 


\S 
I S 


All 
A I 


= 0 , isto e, 

= 0 . 


Conforme Regazzi (2001), “se o posto de S e igual a p, a equagao 


S' - A/ 


= 0 tera p raizes, chamadas de autovalores, ou raizes caracteristicas da 


matriz S”. 
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Sejam A 15 A 2 , ,A p as p solugoes, temos que a cada autovalor A,. 

corresponde um autovetor caracteristico. 

X- 


x, = 


X,2 


X i P 


com = 1 (x,-.x i = 1), sendo esta a condigao de normalidade. 


7 = 1 


p 

e Y.XyXy = 0 para i * k (x*.x k = 0 parai^ k) , sendo esta a condigao de 

7 = 1 

ortogonalidade dos vetores. 

A normalidade e a primeira restrigao feita para que o sistema tenha solugao 
unica, e a segunda restrigao e a ortogonalidade, que garante que as componentes 
principais sao independentes. 

Isso significa dizer que cada autovetor e normalizado, ou seja, a soma dos 
quadrados dos coeficientes e igual a 1, sendo, ainda, ortogonais entre si. 
b) Para cada autovalor A ; determina-se o autovetor normalizado x jt a partir da 


solugao do sistema de equagoes dado a seguir: 


\S - All 


x .. = 0 




x,, 


A-2 


e um autovetor nao normalizado. 


x ; . 


o e um vetor nulo, de dimensao p x 1 . 

O autovetor normalizado e dado por: 


X n 


x n 



*<2 

1 

X i2 


x i 


yj x l + 4 +....+ xr 




1 

"S’ 

1 


X 

"S’ 




( 3 . 16 ) 
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Conforme Regazzi (2001), tomando os elementos do vetor x t , assim 
determinados como os coeficientes de Y jt tem-se que o i-esimo componente 
principal e dado por: 

Yf = x n X { +■■■ + x i2 X 2 + + x ip X p . 

Tem-se, ainda: 

i) Var(Y t ) = A, logo Vdr(Y l ) > Vdr(Y 2 ) > Vdr(Y p ); 

ii) 2^K^,)=Z A . = S^-); 

P 

iii) Cov(Y i ,Y.) = 0, desde que I X iJ X kj = 0 ■ 

j=i 

Deve-se observar que, nesta metodologia, a contribuigao de cada 
componente principal Y t e medida em termos de variancia. Logo, tem-se que o 
quociente e expresso em percentagem: 


VariYd ^0 = ^ ^0 

fy&r(Yi) Ik 


K 

trago(S) 


. 100 . 


(3.17) 


sendo que esta expressao representa a proporgao da variancia total explicada pela 
componente Y.. 

Ao se estudar urn conjunto de n observagoes de p-variaveis, e possivel 
encontrar novas variaveis denominadas de Y k , k - 1, p, que sao combinagoes 
lineares (CL) das variaveis originais X p , nao correlacionados, e apresentam urn grau 
de variabilidade diferente umas das outras, tambem apresentados em ordem 
decrescente de valores. E importante lembrar que, em componentes principals, a 
unidade de medida sao combinagoes lineares nao correlacionadas, por isso sao de 
dificil interpretagao, e tambem e por esse motivo que as variaveis originais devem 
estar na mesma unidade de medida. 

A soma dos k autovalores, dividida pela soma de todos os p autovalores 
(Aj +...+ A t )/(A 1 +....+ A p ), representa a proporgao total explicada pelos primeiros 

k componentes principals. Isto e, a proporgao da informagao retida na redugao de p 
para k dimensoes. Com isso, pode-se decidir quantos componentes principals serao 
utilizados no estudo para diferenciar os individuos. 
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Portanto, para se fazer uma interpretagao correta de quais componentes 
utilizar no estudo, basta selecionar as primeiras componentes que acumulam uma 
percentagem de variancia explicada, igual ou superior a 70%. Ou seja, fica-se com 
Y x ,...,Y k tal que: 


Var(Y x ) + ... + Vdr(Y k ) 


itVdrft) 


.100 > 70% no qual k < p. 


(3.18) 


O sucesso da metodologia e medido pelo valor de k. Se k = 1, dire-se-a que 
o metodo esta reduzindo ao maximo, a dimensao inicial. Nesse caso, pode-se 
comparar os individuos em uma escala linear. Se k = 2, e possivel localizar cada 
individuo em urn piano cartesiano, sendo que os dois eixos representam as duas 
componentes. Se k for maior do que dois, a comparagao dos individuos passa a ser 
mais complicada (REGAZZI, 2001). 

A partir da matriz S e possivel encontrar os valores k x > k 2 > ... > k p > 0, 

que sao as raizes caracteristicas, todas distintas e apresentadas em ordem 
decrescente de valores e, como S e positiva definida, todos os autovalores sao nao 
negativos. 

Os eixos principais sao os autovetores das matrizes SI ou Rl, sendo que sao 
os autovetores que fornecem a diregao dos eixos na analise. 

A Figura 17 mostra a elipse que possui dois eixos perpendiculares, cujas 
coordenadas estao representadas pelos autovetores I e II da matriz S, ou da matriz 
R. Os elementos desses vetores definem sua posigao, isto e, o angulo que eles 
formam com os eixos originais de Y, e Y 2 . O comprimento desses vetores sao os 

autovalores correspondentes a A dessa matriz, que representa a variancia dos 
novos eixos (VALENTIN, 2000). 

A Figura 17 e a representagao grafica dos autovalores e autovetores. 
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Figura 17 - Representagao grafica dos autovalores e autovetores. 
Fonte : Valentin 2000. 


Os eixos fatoriais CP sao definidos pela diregao e comprimento, atraves da 
seguinte equagao caracteristica: S- AI = 0 


S = matriz de variancia-covariancia, ouRa matriz de correlagao. 

A = autovalor de S, ou R. 

I = matriz identidade. 

Mostra-se, a seguir, um exemplo numerico para o calculo dos autovalores e 

autovetores, utilizando-se os dados da Tabela 09. 

Seja S a matriz de variancia e covariancia amostral, dada por: 

[0,69 0,45] 

S = 

0,45 0,48 ’ 


para encontrar os autovalores e autovetores, deve-se partir da seguinte equagao 
caracteristica: 


S- AI 


= 0 . 


Substituindo-se essa equagao pelas matrizes S e I, obtem-se a seguinte 


expressao: 


[0,69 

0,45' 


"i 0] 

-A 


|_0,45 

0,48_ 


0 lj 


Multiplicando-se o autovalor A a matriz identidade, obtem-se as seguintes 
matrizes: 


[0,69 

0,45' 


A 

°] 

|_0,45 

0,48_ 


0 

aJ 


Realizando-se a subtragao entre as matrizes, obtem-se a matriz: 


69 


[" 0,69 - A 

0,45 

L °’ 45 

0,48 - Aj 


Resolvendo-se o determinante dessa matriz, encontra-se o seguinte 
resultado: 

(0,69 - A )( 0,48 - A) - (0,45) 2 = 0. 

Unindo-se os termos semelhantes, encontra-se uma equagao do segundo 

grau: 

0,33 - 0,69A - 0,48A + A 2 - 0,20 = 0. 

Resolvendo-se essa equagao, encontra-se os autovalores correspondentes 
a matriz S. 

A 2 - 1,17A + 0,13 = 0. 


Os autovalores (raizes caracteristicas) sao obtidos da seguinte equagao: 


1,17 + V(-l,17) 2 - (4)(1)(0,13) 

(2)(1) 


logo, os dois autovalores resultantes da equagao 


sao: A, = 1,05 e A, = 0,13. 

Apos encontrado os autovalores, passa-se a calcular os autovetores, 
correspondentes a matriz S. Na expressao que segue, x, e urn autovetor que sera 

associado ao autovalor A t . 

SX = AX , para Aj = 1 ,05. 

Substituindo-se os valores da expressao pelos seus respectivos dados tem- 
se: 


"0,69 

0,45" 

Ail 

= 1,05 

Xu 

0,45 

0,48 

_v 

_Xn_ 


Realizando a multiplicagao da matriz S com o autovetor x e o autovalor A p 

obtem-se o seguinte sistema linear: 

J0,69x u + 0,45x 12 = l,05x n 
[0,45x n + 0,48x 12 = 1,05x 12 

Unindo-se os termos semelhantes no sistema, obtem-se o seguinte: 

J- 0,36x n + 0,45x 12 = 0 
[ 0,45x n - 0,57x 12 = 0 
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Resolvendo o sistema, foi possivel calcular os dois autovetores associados 
ao autovalor A, , no qual x n = 1 e x 12 = 0,8 e o (autovetor * 0), logo o autovetor 
associado ao autovalor 1 ,05 e: 

' 1 ' 

x, = 

L°’ 8 _ 

Para obter os autovetores associados ao autovalor A 2 = 0,13, faz-se os 
calculos de forma analoga ao autovalor Aj : 

SX = AX , para A 2 = 0,13. 

Substituindo-se os valores da expressao pelos seus respectivos dados tem- 
se: 


"0,69 

0,45" 

X 2 i 

= 0,13 

*21 

0,45 

0,48 

_ X 2 2 J 


_ X 22_ 


Realizando a multiplicagao da matriz S com o autovetor x 2 e o autovalor A,, 

obtem-se o seguinte sistema linear: 

J0,69x 21 + 0,45x 22 = 0,13x 21 
[0,45x 21 + 0,48x 22 = 0,13x 22 

Unindo-se os termos semelhantes no sistema, obtem-se o seguinte: 

f0,56x 21 + 0,45x 22 = 0 
[0,32x 21 + 0,48x 22 = 0 

Resolvendo o sistema, foi possivel calcular os dois autovetores associados 
ao autovalor A 2 , no qual x 21 = 1 e x 22 = - 1,25 e o (autovetor * 0), logo o autovetor 
associado ao autovalor 0,13 e: 



Ao realizar uma analise de componentes principals, e muito importante saber 
o significado de cada componente no estudo que esta sendo realizado. 

A interpretagao de uma componente principal e feita mediante o grau de 
importancia, ou, ainda, a influencia que cada variavel tern sobre cada componente, 
sendo que esta importancia e dada pela correlagao entre cada variavel X j e o 

componente Y i que estiver sendo interpretado (REGAZZI, 2001). 

Dessa forma, para a componente Y l tem-se que: 
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Corr(Xj, Y,) = r XjYl = Xlj 


VvarCYt) 

VvarCXj) ^Var(Xj) ’ 


( 3 . 19 ) 


logo, para se comparar a importancia de X 15 X 2 ,...,X sobre 7^ basta fazer: 


fn *,2 x ip < 3 ' 20 ) 

V^kY)’ VFar(X 2 )’ ’ JVarliX p ) 

e, assim, com todas as componentes em estudo. 

A Tabela 1 1 mostra um resumo da analise de componentes principals, quais 
sao os componentes principals, seus autovalores, seus autovetores, a correlagao 
das variaveis, a percentagem de variancia, explicada por cada componente, e a 
percentagem total da variancia acumulada pelos componentes principals. 
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Tabela 1 1 - Componentes principals obtidas da analise de p variaveis •> X 2 •>••••> X p . 



Variancia 

explicada 

pelos 

Coeficientes de ponderagao 
associados as variaveis 

Correlagao entre X 


Percentagem da 
variancia de Y t 

Percentagem acumulada da 
variancia dos Y t 

Componentes 

Principals 

Autovalores 

A, 

A ^2 -X r 

X 

x 2 .... 

.X P 




Yi 

Ai 

.Tj j X n --X lp 

JX> 

S 1 

nr x n 

V A . — -x 

s 2 

S P 

( . p \ 

v > = 1 ) 

.100 

( „ £ „ A 

.100 

y 2 

a 2 

X 21 X 22" X 2p 

JkhL 

V 7V 2 

*1 

n ^22 

V A 2 M 

s 2 

ir 2 ^ 

- r 

r a 

>> 

li 

~ >> 

Vw 

.100 

|^A 1 +A 2 /^A,.j.l00 


Y„ 


A. 


X , X -> .. x 

pi p 2 pp 





100 


Aj+Aj + .^+A^/ ^A ( .100 


Fonte: Regazzi (2001) 
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Se o objetivo da analise for comparar os individuos, ou agrupa-los, deve-se 
calcular, para cada individuo, os seus valores (escores), para cada componente 
principal, que sera utilizado na analise. Isso equivale a substituir a matriz de dados 
originais de dimensao n x p por outra matriz nxk, sendo que k e o numero de 
componentes principais selecionados (REGAZZI, 2001). 

A Tabela 12 ilustra a substituigao da matriz de dados originais (variaveis) por 
uma nova matriz, gerada apos a analise, das componentes principais (escores para 
os componentes). 


Tabela 12 - Escores relativos a n objetos (individuos), obtidos em relagao aos k primeiros 
componentes principais. 


Objetos (individuos) 


Variaveis 

Escores para os 
componentes 


-T, 

X 2 X p 

T 

^2 ■ 

■Y k 

1 

x n 

X 12 ....X lp 

Tn 

Tl 2 - 

~y lk 

2 

x 21 

x 22 ■■■■X 2p 

T21 

T22 " 

-y 2k 

n 

X „1 

X o ....X 

n 2 np 

y« i 

y„2 ■ 

- y nk 


Fonte: Regazzi (2001) 


Para obter as CP e necessario formar as combinagoes lineares das variaveis 
originais. Para formar essas CP utiliza-se o seguinte procedimento: 

Yu =x n X n + x l2 X n + .... + x lp X lp 

^21 = X ll X 21 + X 12 X 22 + •••• + X \p^2p 


^nl d" X \2^-n2 


+ 


+ X \p X np 


Assim, faz-se, sucessivamente, ate encontrar todos os componentes da 

analise. 

Os componentes sao combinagoes lineares nao correlacionados de 
Y 1? Y 2 , , Y p , cuja variancia e a maior possivel. 

Na pratica, se forem utilizados os dados da Tabela 09, as componentes 
serao representadas da seguinte forma: 
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7j = (autovetor x u )(yariavel X) + (autovetor x n ){ywiavelY) 

Y u =1.10,0 + 0,8.10,7 = 18,56 
Y u =1.10,4 + 0,8.9, 8 = 18,24 
Y n =1.9,7 + 0,8.10,0 = 17,7 
y i4 =1.9,7 + 0,8.10,1 = 17,78 
7 15 =1.1 1,7 + 0,8.11,5 = 20,9 

Y 2 = (autovetor x 21 )(var iavel X) + (autovetor x 22 )(\ar iavel Y ) 

Y 21 =1.1 0,0 -1,25. 10,7 = -3,38 
Y 22 =1.10,4 - 1,25.9,8 = -1,85 
Y 23 =1.9,7 - 1,25.10,0 = -2,8 
724 = 1.9,7 - 1,25.10,1 = -2,93 
Y 25 =1.1 1,7 - 1,25.11,5 = -2,68 

Dessa forma, encontrara-se as duas componentes referentes a Tabela 09. 
Como pode-se verificar, acima, em urn numero reduzido de combinagoes lineares e 
possivel sintetizar a maior parte da informagao contida nos dados originais. 


Caso seja necessario padronizar as variaveis, utiliza-se a expressao do item 
2.1. Sendo que a Tabela 13 mostra urn exemplo das variaveis padronizadas. 

Tabela 1 3 - Matriz de variaveis padronizados de n individuos e p variaveis. 


Individuos 

Variaveis 

Zi 

Z 2 

Z 3 

z 4 

Zj 

Z p 

1 

Zn 

Z12 

Z13 

Z-14 

Zij 

Zip 

2 

Z21 

Z22 

Z23 

Z24 

Z 2j 

Z 2p 

3 

Z31 

Z32 

N 

w 

w 

Z34 

Z 3j 

Z 3p 


i 

Zii 

Z i2 

Z i3 

Z i4 

Zy 

Q. 

N 

n 

Znl 

Z n2 

Z n3 

^n4 

Z nj 

^np 


Fonte: Regazzi 2001 
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Pode-se afirmar que a matriz R das variaveis X . e igual a matriz S das 
variaveis padronizadas Z. . 

Desta forma, utilizando os dados padronizados garante-se que todas as 
variaveis tenham o mesmo grau de importancia, portanto, trabalha-se com o 
conjunto de dados padronizados. Neste caso, faz-se necessario estimar a matriz R 
para se calcular os autovalores e autovetores que darao origem as componentes 
principais, cujo procedimento para a estimagao dos autovalores e autovetores sera o 
mesmo mostrado anteriormente, apenas substituindo S por R. Os autovetores 
passarao a ser denominados de e p , pois esta nova representagao indica que o 
conjunto amostral dos dados foi padronizado. Logo, os pares de autovalores e 
autovetores estimados da amostra analisada serao representados por (Aj,^), 
(A 2 ,e 2 ) , ... , (A p ,e p ); onde Aj> A 2 > ... > A p > 0; e fornecerao as novas combinagoes 
lineares (JOHNSON & WICHERN, 1992) expressas por 
Yj = xjX, Y 2 = x 2 X ,..., Y p = XpX os CP entao: 

Su + S 2 22 + ... + S% = t,Var(XJ = A, + A, + ... + A„ = £var(Y,) 

i = 1 i =1 

Si 2 i + Y 2 2 + ... + S 2 pp =tr(S ) 

Ja a proporgao explicada pelo k - esimo componente principal e dada pela 
expressao: 

— t — 1 t — k =1, 2, ... ,p 

A 1 + A 2 +...+ A p 

Ao utilizar-se a matriz R ao inves da matriz S para a extragao das 
componentes principais, a soma da diagonal principal da matriz R corresponded ao 
numero total de variaveis que representa a variabilidade total do sistema 
padronizado, conforme mostra a relagao a seguir: 

tr R = p 

Como se pode verificar, o trago da matriz R sera igual ao numero de 
variaveis que estao envolvidas na formagao das componentes principais, e a 
proporgao da explicagao fornecido pela j-esima componente sera dada por: 

Al 

tr R 
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pois, ao se utilizar a matriz R, teremos na sua diagonal principal somente 
elementos unitarios, facilitando a determinagao da proporgao de variancia explicada 
de cada componente. 

As combinagoes lineares obtidas atraves das CP's, segundo JACKSON 
(1980), possuem a caracteristica de que nenhuma combinagao linear das variaveis 
originais ira explicar mais que a primeira componente e, sempre que se trabalhar 
com a matriz de correlagao, as variaveis nao sofrerao influencia da magnitude de 
suas unidades medidas. 

Resolvendo a matriz de correlagao, pode-se observar se existe correlagao 
entre as variaveis; se algumas variaveis iniciais forem linearmente dependentes 
umas das outras, alguns dos valores proprios serao nulos na matriz de correlagao. 
Neste caso, a variagao total podera ser explicada pelas primeiras componentes 
principais. 

E dificil encontrar em urn problema a existencia de dependencia linear exata, 
a menos que esta seja introduzida propositalmente nas variaveis redundantes. Na 
ACP pode ocorrer a dependencia linear aproximada entre algumas variaveis. Neste 
caso, os valores proprios menores sao muito proximos de zero e a sua contribuigao 
para explicar a variancia sera muito pequena (REIS, 1997). Por isso, deve-se retirar 
da analise aquelas componentes que possuem pouca informagao, isso nao implica 
em uma perda significativa de informagao. 

Com isso, pode-se reduzir os dados e tornar os resultados mais faceis de 
serem interpretados. Dentre varios criterios que excluem componentes que possuem 
pouca informagao, cita-se estes: 

A definigao do numero de componentes a serem utilizadas e feita por meio 
de dois criterios. O primeiro, denominado de metodo grafico, representa 
graficamente a porcentagem de variagao explicada pela componente nas ordenadas 
e os autovalores em ordem decrescente nas abscissas. Quando esta percentagem 
diminui e a curva passa a ser praticamente paralela ao eixo das abscissas, exclui-se 
as componentes que restam, pois possuem pouca informagao. Este criterio, que 
considera as componentes anteriores ao ponto de inflexao da curva, foi sugerido por 
CATTEL (1966) e exemplificado por PLA (1986), que considera quatro situagoes 
distintas, conforme mostra Tabela 14. 
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Tabela 14 - Variagao explicada pela componente. 


Situagoes 


Percentual da variagao total 
explicada pela componente 



CP, 

CP 2 

CP 3 

CP 4 

CP 5 

Total 

Caso 1 

35 

30 

28 

4 

3 

100 

Caso 2 

45 

30 

9 

8 

8 

100 

Caso 3 

75 

7 

7 

6 

5 

100 

Caso 4 

22 

21 

20 

19 

18 

100 


Na Figura 18 a seguir, visualiza-se melhor a selegao dos componentes 
principais atraves do metodo grafico. 



Figura 18 - Proporgao da variagao explicada pela componente. Exemplo retirado de 
Analisis multivariado: metodo de componentes principales; PLA (1986). 

No caso 1, as tres primeiras componentes explicam 93% da variancia total, 
havendo uma quebra brusca depois da quarta componente, sendo consideradas as 
tres primeiras. No caso 2, as duas primeiras componentes explicam 75% da 
variabilidade total e a quebra brusca, neste caso, ocorre na terceira componente, 
considerando-se as duas primeiras. Este mesmo procedimento ocorre para os 
demais casos, podendo-se observar, tambem, que as outras componentes 
apresentam uma baixa explicagao. 

O segundo criterio de selegao consiste em incluir somente aquelas 
componentes cujos valores proprios sejam superiores a 1 . Este criterio e sugerido 
por KAISER (1960) apud MARDIA (1979). Ele tende a incluir poucas componentes 
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quando o numero de variaveis originais e inferior a vinte e, em geral, utilizam-se 
aquelas componentes que conseguem sintetizar uma variancia acumulada em torno 
de 70%. 

Alem do uso na redugao da dimensionalidade, a tecnica de ACP pode ser 
utilizada como apoio a busca da variavel de maior prevalencia no sistema 
responsavel, servindo-se do estudo dos coeficientes de correlagao entre as 
componentes e as variaveis originais. 

Quando se fala em avaliar a estabilidade de urn processo produtivo, as 
dificuldades que porventura existam devem-se a complexidade do processo e nao 
aos metodos multivariados. A ACP e urn recurso adicional de apoio para verificar a 
estabilidade do sistema (TELHADA, 1995). O problema existente em urn conjunto 
multivariado e que, as vezes, uma observagao pode nao ser extrema para uma 
determinada variavel, mas pode ser considerada uma observagao extrema por nao 
ser semelhante a estrutura de correlagao fornecida pelo restante dos dados. 


A equagao r f. X) 



deve ser utilizada quando os autovetores sao 


derivados da matriz de variancia S, e a equagao r^ z = e ki yjA i quando os 

autovetores sao derivados da matriz de correlagao R. 

Quando duas ou mais componentes apresentam-se fora dos limites de 
controle, deve-se estabelecer uma ordem hierarquica entre as componentes 
principals para auxiliar na solugao de conflitos quanto a variavel de maior influencia 
sobre a perda de controle. Pois, neste caso, pode-se ficar em duvida quanto a dar 
mais atengao a uma componente em detrimento da outra. Deve-se, entao, levar em 
consideragao o maior autovalor que originou a componente, optando-se por esta 
(SOUZA, 2000, p.30 a 35). 


3.3 Aplicagao da analise de componentes principals, exemplos praticos 

Neste item serao desenvolvidos dois exemplos praticos, utilizando-se no ex. 
1 para o calculo da matriz S, e no exemplo 2 a matriz R. 

Exemplo 1 : 
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Considere os dados da Tabela 15, referentes a duas variaveis I, e I,, 
sendo estas mensuradas em uma amostra constituida de cinco observagoes 
(individuos). Os componentes principals serao calculados a partir da matriz de 
variancia-covariancia. 

T abela 1 5 - Obs ervagoes relativas a duas variaveis, avaliadas em cinco individuos. 


Observagoes 

(Variavel) Xi 

(Variavel) X : 

1 

100 

76 

2 

93 

82 

3 

102 

81 

4 

95 

68 

5 

90 

62 


Realizando uma estatistica descritiva nas duas variaveis, tem-se os 
seguintes resultados na Tabela 16: 


Tabela 16- Estatistica descritiva relativa a duas variaveis, avaliadas em cinco individuos. 



Variavel X x 

Variavel X 2 

Media aritmetica das variaveis 

96 

73,8 

Somatorio ao quadrado das variaveis 

46178 

27529 

Somatorio das variaveis 

480 

369 

Variancia amostral das variaveis 

24,5 

74,2 

Desvio padrao amostral das variaveis 

4,95 

8,61 


A matriz S e estimada pela expressao do item 3.8, e a covariancia entre as 
variaveis pela equagao do item 3.10, conforme segue o exemplo: 


Cdv{x l ,x 2 ) 


35528 


5-1 


480.369 

5 


Cdv(x 1 ,x 2 ) = ^-[35528 - 35424] 


Cov(x l ,x 2 ) = 26 , 

logo, a matriz S e assim constituida: 

T 24,5 26 1 

S = 

_ 26 74,2 _ 

Para encontrar os autovalores, deve-se partir da equagao caracteristica 
abaixo, utilizando a matriz S: 

= 0 . 


S - A/I 
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Substituindo-se essa equagao pelas matrizes S e /, obtem-se a seguinte 
expressao: 


[24,5 

26 ' 


1 °1 

[ 26 

74, 2_ 

-A 

° lj 


Multiplicando-se o autovalor A a matriz /, obtem-se as seguintes matrizes: 


[24,5 

26 1 


A 

°1 

[ 26 

74, 2J 


0 

aJ 


Realizando-se a subtragao entre as matrizes, obtem-se a matriz: 

24,5 - A 26 _ 

26 74,2 - A ~ 

Resolvendo o determinante dessa matriz, encontra-se o seguinte resultado: 
(24,5 - A )( 74 ,2 - A) - (26) 2 = 0. 

Unindo-se os termos semelhantes, encontra-se uma equagao do segundo 

grau: 

1817,9- 24, 5A - 74, 2A + A 2 - 676 = 0. 

Resolvendo essa equagao, encontra-se os autovalores correspondentes a 
matriz S. 

A 2 - 98, 7 A + 1141,9 = 0. 


Os autovalores (raizes caracteristicas) sao obtidos da seguinte equagao: 


-b + V(-6) 2 - 4(g)(c) 

2(a) 


98,7 ± yj(-98,7) 2 -4(1)(1141,9) 
(2X1) 


logo, os dois autovalores resultantes da 


equagao sao: Aj = 85,32 e A 2 = 13,38. 

Como pode-se observar, a soma dos autovalores corresponde ao trago e ao 
determinante da matriz S. 

Aj +A 2 + ....+ k p = trago da matriz S. Ou seja, 

13,38 + 85,32 = 98,7 = trago da matriz S. 

(Aj).(A 2 ) ,...{k p ) ^determinante da matriz S. 

(13, 38). (85, 32) = 1141.6. 
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A, 


-.100, sera obtida a proporgao da 


Se se resolver a seguinte expressao 

trago S 

variancia total, explicada por cada componente principal. Observa-se que a primeira 


componente explica 


85,32 

98,7 


.100 = 86,44%, e a segunda componente explica 


1 ^ 

— ^-.100 = 13,56%. 
98,7 


Ou seja, a primeira componente relativa a raiz A l , explica 86,44% da 
variagao total dos dados. 

Ja a segunda componente, relativa a raiz A,, explica 13,56% da variagao 
total dos dados. 

Essa variancia sera distribuida entre Aj = 85,32 e A 2 = 13,38, ou seja, 
86,44% da variancia e explicada pelo primeira eixo fatorial, e 13,56% pelo segundo. 

Como pode-se observar, acima, cada componente principal sintetiza a 
maxima proporgao de variancia contida nos dados. 

Deve-se observar, tambem, que a adigao de duas raizes caracteristicas da 
98,7, que nada mais e que o segundo termo da equagao. 

O calculo da primeira componente referente, a A, = 85,32, sera dado pelo 
autovetor associado a A, , sendo que a equagao caracteristica dos autovetores e 


\S - A ,/ 


X 1 = 0. Existe urn vetor x para cada valor de A . 


As coordenadas de x n e x l2 do autovetor X x sao calculadas pela equagao 
matricial: 


S -AJ 


X , = 0 . 


Substituindo-se essa equagao pelas matrizes S, /, pelo primeira autovalor 
Aj = 85,32 e pela matriz de incognitas, obtem-se a seguinte expressao: 


[24,5 

26 ' 


"t 0] 

X,, 


- 85,32 


1 1 

L 26 

74, 2_ 

° lj 

1*12 _ 


0 

0 ' 


Multiplicando-se o autovalor Aj a matriz / e subtraindo da matriz S, obtem-se 


as seguintes matrizes: 
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“24,5 - 85,32 26 lUilT 0 " 

26 74,2 - 85,32 J |_x 12 J ~~ [0 ' 

Multiplicando-se essas matrizes, encontra-se o seguinte sistema: 

J-60,82x n + 26 x 12 = 0 

[ 26x n -11,12 x 12 =0 

Esse sistema de equagoes e indeterminado, em virtude de S - AI = 0 

- 60,82 26 

= 0, 

26 -11,12 

ou, ainda, por x n = x 12 = 0 , ou seja, o vetor passando pela origem. 

Devido a isso, pode-se deixar uma das equagoes (neste caso a segunda), e 
atribuir um valor qualquer, que nao seja nulo, a uma das incognitas (x 12 =l). Dessa 
forma, tem-se: 

- 60,82 x n + 26.(1) = 0 

- 60,82 x n = -26, logo o valor da incognita x n sera: 
x n = 0,43, 

e o autovetor associado ao primeiro autovalor A i = 85,32, sera: 

- r °’ 43 i 

x = e, sua norma sera de: 

L 1 

I* | = V( 0,43) 2 + (l) 2 = 1,09. 

Para que esse vetor seja unitario, e necessario normalizar o autovetor a 1, 
da seguinte forma: 



Substituindo-se essa expressao pelos seus respectivos valores tem-se: 

1 r 0,43“ 

x = 

1,09 [_ 1 

logo, o primeiro autovetor normalizado sera: 



e a sua norma sera: 
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Como pode-se observar x[x, = 1 , sendo esta a primeira restrigao feita por 
Morrison (1976), para que o sistema tenha solugao unica. 

Logo, o primeiro componente principal sera: 

Y x = 0,3 9Xj + 0,92X 2 . 


O segundo componente principal e dado pela outra raiz A 2 = 13,38: 

5 - A 2 IX 2 = 0. 

Substituindo-se essa equagao pelas matrizes S, /, pelo segundo autovetor 
A 2 = 13,38, e pela matriz de incognitas, obtem-se a seguinte expressao: 


24,5 26 “ 

26 74, 2_ 





Multiplicando-se o autovalor A 2 a matriz / e subtraindo da matriz S, obtem- 

se as seguintes matrizes: 

“24,5 - 13,38 26 LJfO' 

26 74,2 - 13,38_|[x 22 J ~ |_0_' 

Multiplicando-se essas matrizes, encontra-se o seguinte sistema: 


1 1 1,12x 21 + 26x 22 = 0 
[26x 21 + 60,82x 22 = 0 

Esse sistema de equagoes e indeterminado, em virtude de S - AI = 0 

11,12 26 

= 0 , 

26 60,82 


ou, ainda, por x 2l = ^ 22 = 0 , ou seja, o vetor passando pela origem. 

Devido a isso, pode-se deixar uma das equagoes (neste caso a segunda), e 
atribuir urn valor qualquer, que nao seja nulo, a uma das incognitas (x 22 =1 ). Dessa 
forma, tem-se: 

1 1,12x 21 + 26.(1) = 0 , logo a incognita x 21 , sera: 


x 


21 ~ 


26 

11,12 


2,34 


e o autovetor, associado ao segundo autovalor A 2 = 13,38, sera: 
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e sua norma sera de: 


x 2 = J(- 0,92) 2 + (0,39) 2 = 1. 


Como pode-se observar, x' 2 x 2 = 1 e a primeira restrigao feita por Morrison 
(1976), para que o sistema tenha solugao unica (SOUZA, 2001). 

Os elementos desses dois vetores de norma 1 sao os cossenos-diretores 
dos angulos que eles fazem com o sistema de origem. 

Logo, a segunda componente principal sera: 

Y 2 = — 0,92X 1 + 0,3 9X, . 

Outra restrigao e que, nesse exemplo, os dois vetores sao ortogonais, pois 
x[x 2 = 0 (o produto escalar e igual a zero), que e a segunda restrigao feita por 
Morrison (1976). 

Para que esta restrigao seja satisfeita, deve-se multiplicar o primeiro 
autovetor normalizado transposto pelo segundo autovetor normalizado, procedendo- 
se da seguinte forma: 

x[x 2 =[0,39 0,92] 



Multiplicando-se os autovetores normalizados, tem-se a seguinte expressao: 

x[x 2 = (0,39)(- 0,92) + (0,92)(0,39), 
logo, tem-se que: 
x[x 2 = - 0,36 + 0,36 = 0. 
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Conforme Regazzi (2001), “cada componente admite duas solugoes, pois 
cada uma delas e obtida da outra pela multiplicagao de seu segundo membra por 
(-1)”. Urn exemplo disso pode ser a primeira componente principal: 

Y x = 0,39X x + (0,92)(-l)X 2 
Y t = 0,39 X x - 0,92X 2 . 

O passo a seguir e realizado para encontrar o valor de cada componente 
principal, procede-se da seguinte forma: 

Y x =0,39X 1 + 0,92X 2 

Y n = 0,39(100) + 0,92(76) = 108,92 

Y u =0,39(93) + 0,92(82) = 1 1 1,71 

7 13 =0,39(102) + 0,92(81) = 114,3 

Y l4 =0,39(95) + 0,92(68) = 99,61 

Y xs =0,39(90) + 0,92(62) =92,14 

Y 2 = -0,92X x + 0,3 9X 2 

Y 2X = -0,92(100) + 0,39(76) =-62,36 

7 22 =-0,92(93) + 0,39(82) =-53,58 

7 23 =- 0,92(102) + 0,39(81) =- 62,25 

7 24 =-0,92(95) + 0,39(68) =-60,88 

7 25 =0,92(90) - 0,39(62) =-58,62 

Na Tabela 16 mostra-se as observagoes, e as variaveis originais utilizadas 
na analise e as novas componentes geradas a partir das combinagoes lineares, 
formadas na analise. 

Tabela 17 - Mostra a substituigao da matrizdos dados originais por uma nova matriz, gerada a partir 
das combinagdes lineares. 


Observagoes 

Variaveis originais 

Novas variaveis geradas para 
as componentes principals 



X 2 


^2 

1 

100 

76 

108,22 

-62,36 

2 

93 

82 

111,71 

-53,58 

3 

102 

81 

114,3 

-62,25 

4 

95 

68 

99,61 

-60,88 

5 

90 

62 

92,14 

-58,62 
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Para completar a analise de componentes principals, e necessario fazer a 
correlagao entre as variaveis X . e Y i , como se pode verificar a seguir: 



= °' 73 


x 2 j, 


x 2 y\ 


~ V^i * 


12 


= 785,32. 


yjvdr(x 2 ) 
0,92 


VH2 


= 0,99 


*1^2 


*1^2 


— A/ A 


W 21 


2 * 


yjVar(x l ) 


= Jl3,39.^M£ = -0,68 

V^5 


* 2>>2 



^22 


yjVdr(x 2 ) 


*2^2 


Vl339 


0,39 

'V^2 


0,17. 


A Tabela 18 mostra os componentes principals encontrados na analise, os 
autovalores, os autovetores, a correlagao existente entre as variaveis, a 
percentagem de explicagao de cada componente e a percentagem total de variancia 
acumulada pelas componentes principals. 


Tabela 18 - Resumo da analise de componentes principals. 


Componentes 

principals 

Autovalor 

Coeficiente de 
ponderagao 
associado as 
variaveis 

Correlagao entre 

X j Y i 

Percentagem 
da variancia de 

Y, 

Percentagem 
acumulada da 
variancia dos 

Y, 



x i 

^2 

x i 

^2 




85,32 

0,39 

0,92 

0,73 

0,99 

86,44% 

86,44% 

Y 

13,39 

-0,92 

0,39 

-0,68 

0,17 

13,56% 

100% 
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Como pode-se observar na Tabela 17, a componente Y i possui a maior 
correlagao, sendo essa variavel a de maior importancia para o estudo. 

Exemplo 2: 

Considerando-se os dados do exemplo 01, referentes a duas variaveis X 1 e 
X 2 , sendo estas mensuradas em uma amostra constituida de cinco observagoes 
(individuos), passa-se a desenvolver este exemplo, da Tabela 19, a partir da matriz 
de correlagao. 

Na Tabela 19 mostra-se as observagoes e as variaveis originais utilizadas na 
analise, e as variaveis padronizadas. 

Tabela 19 - Observagoes relativas a duas variaveis, avaliadas em cinco individuos e com as 


respectivas variaveis padronizadas. 


Observagoes 

Variaveis originais 

Variaveis padronizadas 


*i 

^2 

Zi 

Z 2 

1 

100 

76 

0,81 

0,26 

2 

93 

82 

-0,61 

0,95 

3 

102 

81 

1,21 

0,84 

4 

95 

68 

-0,20 

-0,67 

5 

90 

62 

-1,21 

-1,37 


Para se obter as variaveis padronizadas, pode-se utilizar a expressao do 
item 2.1 : 


Z 

Z 

Z 

Z 

Z 


ii 


12 


13 


14 


15 


100 - 96 
4,95 

93 - 96 
4,95 

102 - 96 
4,95 

95 - 96 
4,95 

90 - 96 
4,95 


0,81 

-0,61 

1,21 

- 0,20 

- 1,21 


' 21 


' 22 


' 23 


'24 


'25 


76 

- 73,8 


8,61 

82 

- 73,8 


8,61 

81 

- 73,8 


8,61 

68 

- 73,8 


8,61 

62 

- 73,8 


8,61 


= 0,26 
= 0,95 
- 0,84 
= -0,67 
= -1,37 


Realizando-se uma estatistica descritiva, nas duas variaveis, tem-se os 
seguintes resultados: 
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Tabela 20 - Estatfstica descritiva relativa a duas variaveis, avaliadas em cinco indivfduos. 



Variavel X x 

Variavel X 2 

Media aritmetica das variaveis 

96 

73,8 

Somatorio ao quadrado das variaveis 

46178 

27529 

Somatorio das variaveis 

480 

369 

Variancia amostral das variaveis 

24,5 

74,2 

Desvio padrao amostral das variaveis 

4,9497 

8,6139 

Desvio padrao amostral das variaveis 
padronizadas 

1 

1 


A matriz de correlagao R, que e extraida das variaveis originais, sera 
calculada pela expressao do item 3.11, e as correlagoes entre as variaveis serao 
obtidas pela equagao do item 3.12; 

r xx = — = 0,61. 

12 4,95.8,61 

A correlagao entre a variavel, em relagao a ela mesma, sera fornecida pela 
expressao do item 3.13: 



24, 5 2 
24, 5 2 


logo, a matriz de correlagao sera assim constituida: 


1 0,6 f 

0,61 1 


Para encontrar os autovalores, a partir da matriz de correlagao R, deve-se 
partir da seguinte equagao caracteristica: 

R-AI =0. 

Substituindo-se essa equagao pelas matrizes R e /, obtem-se a seguinte 
expressao: 

r i o,6ii ~n o] 

-A =0. 

[0,61 1 J L° 1 J 

Multiplicando-se o autovalor A a matriz /, obtem-se as seguintes matrizes: 

1 0,61 A 0 _ 

0,61 1 0 A 

Realizando-se a subtragao entre as matrizes, obtem-se a matriz: 

i-A 0,61 

0,61 1 - A 
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Resolvendo o determinante dessa matriz, encontra-se o seguinte resultado: 

(1 - A )( 1 - A) - (0,61 ) 2 = 0. 


Unindo-se os termos semelhantes, encontra-se uma equagao do segundo 


grau: 

1 -A-A + A 2 -0,37=0. 

Resolvendo essa equagao, encontra-se os autovalores correspondentes a 
matriz R. 

A 2 - 2A + 0,63 = 0. 


Os autovalores (raizes caracteristicas) sao obtidos da seguinte equagao: 


A 2 zh V(-2) 2 - 4(1)(0,63) 
2 ( 1 ) 


logo, os dois autovalores resultantes da equagao sao: 


Aj = 1,61 e A 2 = 0,39. 

Como pode-se observar, a adigao de duas raizes caracteristicas da 2, que 
nada mais e que o segundo termo da equagao. 

Deve-se observar, tambem, que a soma dos autovalores corresponde ao 
trago e ao determinante da matriz R. 

Aj + A, + .... + A p = trago da matriz R. 
ou seja, 1 ,61 + 0,39 = 2 = trago da matriz R. 

(Aj).(A 2 ) ,...(A p ) = determinante da matriz R. 

(1,61). (0,39) = 0,63. 


A, 


-.100, tem-se a proporgao da 


Se a seguinte expressao for resolvida 

trago R 

variancia total, explicada por cada componente principal. Observa-se que a primeira 


componente explica 


1,61 


.100 = 80,50%, e a segunda componente explica 


0,39 

2 


.100 = 19,50% 


Ou seja, a primeira componente relativa a raiz A M explica 80,50% da 
variagao total dos dados. 

A segunda componente, relativa a raiz A 2 , explica 19,50% da variagao total 


dos dados. 
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Essa variancia sera distribuida entre A 1 = 1,61 e A 2 = 0,39, ou seja, 80,50% 
da variancia e explicada pelo primeiro eixo fatorial, e 19,50% pelo segundo. 

O calculo da primeira componente, referente a Aj = 1,61, sera dado pelo 
autovetor associado a A l , conforme a equagao: 


R 




Substituindo-se essa equagao pelas matrizes R, I, pelo primeiro autovetor 
Aj = 1,61 e pela matriz de incognitas, obtem-se a seguinte expressao: 


r i 

0,6 r 

- 1,61 

1 °1 

pn 

|_0,61 

i 

0 lj 

_^12_ 


0 

0 ' 


Multiplicando-se o autovalor Aj a matriz / e subtraindo da matriz R, obtem- 
se as seguintes matrizes: 


"1 - 1,61 

0,61 



" 0 " 

0,61 

1 - 1,61 



0 


Multiplicando-se essas matrizes encontra-se o seguinte sistema: 

J - 0 , 61e n + 0 , 61e 12 = 0 

[ 0,6 \ e n - 0 , 61e 12 =0 


Esse sistema de equagoes e indeterminado em virtude de 


R -All 


= 0 


- 0,61 0,61 

= 0 . 

0,61 - 0,61 

Devido a isso, pode-se deixar uma das equagoes (neste caso a segunda) e 
atribuir urn valor qualquer, que nao seja nulo, a uma das incognitas (e 12 =l). Dessa 
forma, tem-se: 

- 0,61 e u + 0, 61.(1) = 0 

- 0,61 e n = - 0,61 , logo e n sera: 

i - ^ ’ 


e o autovetor associado ao primeiro autovalor A i = 1 ,61 , sera: 



e, sua norma sera: 


eJI = V(l) 2 + (!) 2 = 1,41- 
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Para que esse vetor seja unitario, e necessario normalizar o autovetor a 1, 
da seguinte forma: 

1 „ 

= M'" 1 ' 

Substituindo-se essa expressao, pelos seus respectivos valores, tem-se: 

i r f 

e, = 

1,41 L 1 _ 

Portanto, o primeiro autovetor normalizado sera: 




0,71 
0,71 ’ 


e a sua norma sera: 


eJI = V(- °’ 71 ) 2 + (0,71) 2 = 1. 


Como pode-se observar e[e x = 1 , sendo esta a primeira restrigao feita por 
Morrison (1976), para que o sistema tenha solugao unica. 

Logo, o primeiro componente principal sera: 

Y x = 0,7 lZj + 0,7 1Z 2 . 


O segundo componente principal e dado pela outra raiz A 2 = 0,39: 


R 



= 0. 


Substituindo-se essa equagao pelas matrizes R, I, pelo segundo autovalor 
A 2 = 13,38, e pela matriz de incognitas, obtem-se a seguinte expressao: 


r i 

0,6 r 

-0,39 

1 °1 

^21 

[0,61 

i 

0 lj 

_^22_ 


0 

0 ' 


Multiplicando-se o autovalor A 2 a matriz / e subtraindo da matriz R, obtem- 
se as seguintes matrizes: 


"1 - 0,39 

0,61 

e 2l 


" 0 " 

0,6! 

1 - 0,39 

_<?22_ 


0 


Multiplicando-se essas matrizes encontra-se o seguinte sistema: 

J0,61e 21 + 0,61e 22 = 0 
|0,61e 21 + 0,61e 22 = 0 

Fazendo-se o procedimento analogo ao anterior, tem-se: 
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0,61e 21 + 0,61(1) = 0, logo a incognita e 21 , sera: 
e 2l = — 1 , 

e o autovetor associado ao segundo autovalor A 2 = 0,39 , sera: 



e sua norma sera de: 

INI = i/H> 2 + (D 2 = 1,41 ■ 

Para que esse vetor seja unitario, e necessario normalizar o autovetor a 1, 
da seguinte forma: 

i . i r-ii 



logo, o segundo autovetor normalizado sera: 



e sua norma sera: 

\\e 2 \\ = V(-0,71) 2 + (0,71) 2 =1. 

Como pode-se observar, e' 2 e 2 = 1 e a primeira restrigao feita por Morrison 
(1976), para que o sistema tenha solugao unica. 

Logo, a segunda componente principal sera: 

Y 2 = - 0,7 lZj + 0,7 1Z 2 . 

Outra observagao e que, neste exemplo, os componentes principais sao 
ortogonais, pois e[e 2 = 0, que e a segunda restrigao feita por Morrison (1976). 

Para que esta restrigao seja satisfeita deve-se multiplicar o primeiro 
autovetor normalizado transposto pelo segundo autovetor normalizado, procedendo- 
se da seguinte forma: 

- 0,71“ 

0,7 i ' 

Multiplicando-se os autovetores normalizados, tem-se a seguinte expressao: 

e \ e 2 = (0,7 1)(-0,7 1) + (0,7 1)(0,7 1), 

tem-se que: 

e[e 2 = - 0,50 + 0,50 = 0. 


e \ e i = [0,7 1 0,71] 
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O passo a seguir e encontrar o valor de cada componente principal, 
procedendo-se de forma analoga ao exemplo 1 : 

Tabela 21 - Mostra os escores para analise de componentes principals. 


Observagoes 

Variaveis 

Escores para os 
componentes principais 



X 2 


^2 

1 

100 

76 

0,76 

-0,39 

2 

93 

82 

0,24 

1,10 

3 

102 

81 

1,46 

-0,26 

4 

95 

68 

-0,62 

0,34 

5 

90 

62 

-1,83 

-0,11 


Para completar a analise de componentes principais, e necessario fazer a 
correlagao entre as variaveis Z e Y. , como se pode verificar a seguir: 


r z m =e n V A i 


** Z 2Y1 ^12 v^l 


^* Z 1Y2 ^21 


r = 

Z 2Y2 22 


z iYi 


z 2Yl 


z iY2 


z 2Y2 


= 0.7lVl6T = 0,90 
= 0.7lVU>I = 0,90 
= - 0.71V039 =-0,44 
= 0.71^/039 = 0,44 


A Tabela 22 mostra as principais informagoes de uma analise de 
componentes principais. 


Tabela 22 - Componentes principais obtidos da analise de duas variaveis padronizadas Z x e Z 2 . 


Componentes 

principais 

Autovalor 

Coeficiente de 
ponderagao 

Correlagao 
entre Z, Y. 

J 1 

Percentagem 
da variancia 
de Y t 

Percentagem 
acumulada da 
variancia dos Y. 




Z 2 


Z 2 




1,61 

0,71 

0,71 

0,90 

0,90 

80,50% 

80,50% 

y 2 

0,39 

-0,71 

0,71 

-0,44 

0,44 

19,50% 

100% 


Como pode-se observar novamente, a primeira componente Y t possui a 


maior correlagao, sendo esta a de maior importancia para o estudo. 
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Deve-se observar que os valores obtidos dos componentes principals, 
atraves da matriz S, em geral nao sao os mesmos que os obtidos da matriz R. 


Comentario desse capftulo 


Nesse capftulo mostrou-se o procedimento a mao das analises, para que 
fosse possfvel o entendimento quando se trabalha com urn grande numero de 
variaveis. Pois a interpretagao sera similar, mas sendo necessario a utilizagao de urn 
programa computacional especffico. No capftulo 4, desenvolveram-se dois exemplos 
com dados reais, utilizando-se urn programa especffico. 
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4 APLICANDO O SOFTWARE PASSO-A-PASSO 

Neste capitulo 4, aplica-se tecnicas multivariadas utilizando-se o software 
statistica versao 7.0 passo-a-passo, de forma a auxiliar o desenvolvimento de 
pesquisas futuras. 

Utilizou-se dois bancos de dados. O primeiro, para desenvolver o exemplo 
da analise de agrupamentos, refere-se a produgao de graos do setor agroindustrial 
brasileiro, no periodo de 1995 a 2002, e o segundo para desenvolver o exemplo da 
analise fatorial de componentes principals, refere-se a 30 coletas da fauna edafica 
do solo, no periodo de 06 de junho de 2004 a 04 de janeiro de 2005, com coletas 
semanais. 


4.1 Analise de Agrupamentos 

Detalha-se, a partir de agora, os procedimentos para realizagao da AA, 
utilizando-se o metodo de agrupamento do vizinho mais proximo, no qual serao 
salientados alguns principios gerais de interpretagao dos resultados numericos e 
graficos de uma AA, utilizando-se o software Statistica versao 7.0. 

Conforme Figura 19, para encontrar os grupos de variaveis com as mesmas 
caracteristicas, que constituem o dendograma na analise, deve-se proceder da 
seguinte forma: Acessar a barra de tarefas e clicar em Iniciar/Programas/Sfaf/sf/ca 
/Statistica, conforme a seguinte caixa do programa: 


|BJ 

B * - ■ 

[5] 

■a 

& 


ARTIG0 AGROINDUSTRIA 1 

Favoritos 
Documentos 
Configuragoes 


Localizar 


Ajuda 


Executar... 


& 


Efetuar jogoff.. 


© WinZip 
S— Adobe Reader 6.0 
Internet Explorer 
m Microsoft Access 
m Microsoft Excel 
Microsoft FrontPage 
1(51 Microsoft Outlook 
1BI Microsoft PowerPoint 
Microsoft Word 
Outlook Express 
Prompt do MS-DOS 
SIE 

Windows Explorer 
© STATISTICA 6.0 


IS STATISTICA 


m 

q 

m 


^ Basic Statistics 
^ Electronic Manual 
^21 Readme 
► ® Setup 


STATISTICA 


Figura 19 - Caixa de selegao das analises estatisticas. 





96 


A Figura 20 mostra como transportar o banco de dados do excel para o 
programa statistica sem que seja necessario copiar as variaveis de forma individual. 

Deve-se clicar na opgao abrir Arquivos do tipo\ selecionar Excel Files f.xls), 
na opgao Examinar selecionar a pasta em que esta arquivo do excel, na opgao 
Nome do arquivo: selecionar a o banco de dados do excel e clicar em Abrir. 


File View Tools Help 

D 12^ 

o. |#4 

Add to Workbook- Add to 


Open 



nas 


Examinar: |E> Examples 


Documents 

recentes 


r Database 
Datasets 
Graphs 
(^Macros 


Desktop 


u 

Meus 

documentos 

9 * 

Meu computador 


I fSltfi' 



STATISTICA Files (*.stw; x . sta; x .stg; x .str; x .svbj x .smx 
STATISTICA Graph Files ( x .stg) 

STATISTICA Report Files ( x .str) 

STATISTICA Matrix File [".smx) 

STATISTICA 5 Scrollsheets ( x .scr) 

STATISTICA 5 Spreadsheets ( x .sta; x css) 

Excel Files ( X .xls) 
dBASE Files ( x .dbf) 

SPSS Portable Files ( x .por) 

Lotus/Quattro Worksheets ( x . wkl ; x .wk3; x .wq1 ) 
Text Files ( X .txt; x .csv) 



Figura 20 - Caixa de selegao para importar os dados do excel para o programa statistica. 


Na Figura 21 selecionando a primeira opgao Import all sheets to a Workbook, 
importa-se todas as planilhas para area de trabalho, selecionando a segunda opgao, 
Import selected to a Spreadsheet, importa-se todas as planilhas selecionadas. 



Figura 21 - Caixa de selegao para importar os todos os dados do excel para o programa statistica. 
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A Figura 22 mostra que selecionando a primeira opgao serao importados os 
nomes da primeira coluna, que geralmente sao variaveis qualitativas, selecionando a 
segunda opgao serao importados os nomes das variaveis que estao na primeira 
linha de uma planilha excel e selecionando a terceira opgao serao importados no 
formato em que foram importados os dados. 


For each imported sheet: 

W Get case names from first column 
W Get variable names from first row 


OK 


Cancel 


W Import cell formatting 


Each sheet in Excel Workbook will be transformed into a Spreadsheet 
in STATISTICA Workbook. 


Figura 22 - Caixa de selegao para importar os dados do excel para o programa statistica, 
por linhas e por colunas. 

A amostra, utilizada para este exemplo, refere-se a produgao de graos do 
setor agricola brasileiro, no periodo de 1995 a 2002, sendo que esta tecnica 
possibilitara fazer uma sintese da produgao de graos neste periodo, bem como 
identificar os estados que possuiram medias semelhantes de produgao, atraves dos 
grupos formados e, consequentemente, os estados que apresentaram a maior 
produgao. 

O banco de dados e constituido pelos 27 estados brasileiros, que sao os 
casos, e pela produgao das seguintes culturas: soja, milho, cafe, trigo, girassol, 
feijao e arroz, entre outras, perfazendo urn total de 26 variaveis, num periodo de oito 
anos. As culturas em estudo sao constituidas pelos produtos de maior expressao de 
produgao nos 27 estados, com coletas anuais medidas em toneladas. Para efetuar a 
analise, foi realizada uma media bianual das produgoes, pois esta possibilitou uma 
melhor visualizagao das variaveis, nao sobrepondo, graficamente, as culturas 
analisadas. 

Inicialmente, elaborou-se o banco de dados com as variaveis representadas 
nas colunas, e os objetos nas linhas, como mostra a Figura 23. 


Ht.i tMIlTiH 1 TifTf-Tirf? H imi MHTi 7T1P t IP^l _ . §1 

D 1 2$ 61 S Ql $> ^ Cl <? *^ £“'■* | (J4 *■►" * dd to Workbook - Add to Report - 

«■ | rn I a, IZ m La I2C RB HI m Bi H IX la l£ %u#S ! Pjgfi © % m A Id Bi gift ", 

| 3 I 3 » I n | E S s OS' A- i tog -£g I tii'i'Y zi «=? vers * 

523 File Edit View Insert Format Statistics Graphs Tools Data Window Help 
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Figura 23 - Caixa das variaveis para AA. 
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Analisando-se a Figura 23, pode-se concluir que nem todos os estados 
produzem todos os produtos, ou seja, alguns produtos sao caracteristicos de 
algumas regioes, apenas. A descrigao das variaveis envolvidas neste estudo e a 
seguinte: V 1 representara a variavel 1, V 2 representara a variavel 2 e assim 
sucessivamente, com a demais variaveis: 

Vj = produgao de arroz, nos anos de 1995/1996. 

V 2 = produgao de arroz, nos anos de 1997/1998. 

V 3 = produgao de arroz, nos anos de 1999/2000. 

V 4 = produgao de arroz, nos anos de 2001/2002. 

V 5 = produgao de feijao, nos anos de 1995/1996. 

V 6 = produgao de feijao, nos anos de 1997/1998. 

V 7 = produgao de feijao, nos anos de 1999/2000. 

V 8 = produgao de feijao, nos anos de 2001/2002. 

V 9 = produgao de milho, nos anos de 1995/1996. 

V 10 = produgao de milho, nos anos de 1997/1998. 

V n = produgao de milho, nos anos de 1999/2000. 

V 12 = produgao de milho, nos anos de 2001/2002. 

V 13 = produgao de soja, nos anos de 1995/1996. 

V 14 = produgao de soja, nos anos de 1997/1998. 

V 15 = produgao de soja, nos anos de 1999/2000. 

V 16 = produgao de soja, nos anos de 2001/2002. 

V 17 = produgao de cafe, nos anos de 1995/1996. 

V 18 = produgao de cafe, nos anos de 1997/1998. 

V 19 = produgao de cafe, nos anos de 1999/2000. 

V 20 = produgao de cafe, nos anos de 2001/2002. 

V 21 = produgao de girassol, nos anos de 1999/2000. 

V 22 = produgao de girassol, nos anos de 2001/2002. 

V 23 = produgao de trigo, nos anos de 1995/1996. 

V 24 = produgao de trigo, nos anos de 1997/1998. 
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V 25 = produgao de trigo, nos anos de 1999/2000. 

V 26 = produgao de trigo, nos anos de 2001/2002. 

Para a realizagao da analise, seleciona-se, no menu de opgoes, o modulo 
principal do STATISTICA, a opgao Multivariate Exploratory Techniques - Cluster 
Analysis, conforme a caixa de selegao mostrada na Figura 24. 



Figura 24 - Caixa de selegao da AA. 


A Figura 26 mostra a caixa de selegao de opgoes, para se realizar uma 
analise de agrupamentos. Selecionando Joning (tree clustering), e possivel 
encontrar o dendograma, o qual mostrara o numero de grupos formados pelas 
mesmas caracteristicas. Outra opgao e selecionar K-means clustering, que ira definir 
o numero de grupos a serem utilizados na analise. Esses grupos sao definidos pelas 
medias encontradas no banco de dados inicial. E ainda existe outra forma de realizar 
a analise, atraves da opgao Two-way joining, que torna possivel fazer urn mapa 
associative entre cada variavel e a unidade amostral, permitindo, atraves da 
inspegao visual, qual variavel possui uma maior representatividade para o conjunto 
de dados, mas estas nao foram citadas no trabalho. 
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Figura 25 - Caixa de selegao para analise de agrupamentos. 

A Figura 25 mostra a caixa de dialogo das variaveis para AA. Nesta caixa 
existem varias opgoes para a realizagao da analise. Selecionando a opgao 
Variables, e possivel visualizar e selecionar as variaveis que o pesquisador deseja 
incluir na analise. Na opgao Imput in file encontra-se as opgoes Raw data, que e 
utilizada para os dados brutos do banco de dados. Outra opgao desta caixa de 
dialogo e Cluster, que possibilita realizar a analise de duas formas: se selecionar 
variables, o agrupamento sera feito por colunas e se for selecionado cases o 
agrupamento sera realizado por linhas. 

A caixa de selegao mostra, ainda, a opgao Amalgamation (linkage) rule, na 
qual se encontra os metodos de encadeamento: Single Linkage, que se baseia na 
distancia minima; Complete Linkage, que se baseia na distancia maxima entre 
objetos, dentre outras distancias que se encontram dispostas para serem utilizadas 
na analise. A ultima opgao desta caixa de dialogo e Distance measure, na qual o 
pesquisador podera selecionar o tipo de distancia que deseja utilizar em seu 
trabalho. E importante lembrar que a distancia mais utilizada e a Euclidean 
distances, ou seja, a distancia euclidiana. 
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Figura 26 - Caixa de selegao, para analise de agrupamento. 


Para selecionar todas as variaveis, basta clicar em Select All, e OK, 
conforme Figura 27. Se desejar selecionar apenas algumas variaveis, deve-se 
utilizar a tecla Ctrl, e clicar nas variaveis desejadas. 
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6- FE 97/98 16-SO 01/02 

7- FE 99/00 17-CA 95/96 

8- FE 01/02 18-CA 97/98 

9- MI 95/96 19-CA 99/00 

10- MI 97/98 20-CA 01/02 

21- GIR 99/OC 

22- GIR 01/02 
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Figura 27- Caixa de selegao das variaveis, para a analise de agrupamentos. 


A Figura 28 mostra a caixa de selegao de comandos para a AA, 
selecionando Advanced/Horizontal hierarchical tree plot, tem-se o dendograma 
horizontal, e escolhendo-se a opgao Vertical icicle plot, tem-se o dendograma 
vertical. A caixa de selegao ainda traz a opgao da matriz de distancias entre as 
variaveis Distance matrix, e possibilita, ainda, realizar uma estatistica descritiva nos 
dados, selecionando a opgao Descriptive statistics, que pode ser de interesse do 
pesquisador. Vale lembrar que estas estatisticas sao referentes as variaveis 
originais. 
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Figura 28 - Caixa de selegao do dendograma, matriz de distances e estatistica descritiva, 
para a analise de agrupamento. 

A Figura 29, mostra o dendograma considerando o metodo do vizinho mais 
proximo, como o algoritmo de agrupamento dos dados, e sera considerada a 
distancia euclidiana como medida de dissimilaridade. 

O dendograma, a seguir, e formado com base nos pares de objetos mais 
similares, ou seja, com a menor distancia entre eles. Logo apos, estes objetos, ou 
grupos ja formados, vao reunir-se em razao de similaridade decrescente. 


Dendograma das variaveis 



Figura 29 - Dendograma da matriz de distancias, pelo metodo de agrupamento por ligagao 
simples. 
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No dendograma da Figura 29, a escala vertical indica o nivel de similaridade, 
e no eixo horizontal sao marcados os individuos, na ordem em que sao agrupados. 
As linhas verticals partem dos individuos, e tern altura correspondente ao nivel em 
que os individuos sao considerados semelhantes. 

Observando a Figura 29, verifica-se que o maior salto encontra-se entre a 
distancia 8x1 0 6 e IxlO 7 no grafico referido como 8E6 e 1E7 respectivamente. Se se 
fizer urn corte no grafico, entre essas distancias, ter-se-a, tres grupos homogeneos 
distintos. O primeiro grupo e formado pelas variaveis: arroz, feijao, girassol, trigo e 
cafe, que esta sendo representado pela elipse, sendo que as variaveis, que formam 
esse grupo, representam a menor produgao de graos em todo o periodo, pois elas 
possuem menor altura em relagao ao eixo y, o segundo grupo e formado pela 
variavel milho, que esta sendo representada pelo circulo, ao lado da elipse, esta 
variavel manteve sua produgao constante no periodo de 1995 a 1998 e teve urn 
aumento significative no ano de 1999, mantendo-se constante ate o ano de 2002. 

O terceiro grupo e formado pela variavel soja, que esta sendo representado 
pelo circulo da extremidade. Essa variavel formou, no dendograma, urn grupo 
isolado, devido a sua produgao ser superior as demais, embora que esta tenha tido 
varias oscilagoes ocorridas no periodo. Nos anos de 1995 e 1996 representou uma 
produgao significativa, ocorrendo urn decrescimo no ano de 1997, mantendo-se 
instavel ate o ano de 2000. So tornou a aumentar no ano de 2001 e 2002, os quais 
se destacaram pela alta produgao ocorrida. 

Antes de concluir a analise sobre o dendograma, e pertinente lembrar que o 
corte, no grafico, que determina o numero de grupos, geralmente, e realizado em 
relagao as maiores distancias em que os grupos foram formados, levando-se, 
sempre, em consideragao os criterios adotados por cada pesquisador. 

O grafico da Figura 30 serve de auxilio para o pesquisador, caso no 
dendograma nao esteja claro entre quais distancias ocorra o maior salto. 
Analisando-se este grafico, e possivel ver que o corte deve ser realizado no 
dendograma entre as distancias 8x1 0 6 e IxlO 7 , no qual ocorre o maior salto, 
conforme indicado no grafico pela elipse. 
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Figura 30- Grafico das distancias nas quais os grupos foram formados. 

Como pode-se observar na Figura 31, os individuos que estao em um 
mesmo grupo possuem medias de produgao semelhantes, e os que possuiam 
medias diferentes formaram outros grupos, isso comprova a existencia de 
homogenidade dentro do grupo e heterogenidade entre os grupos. 

Aplicando-se a AA, por linhas, encontra-se o dendograma referente aos 
estados que constituiram a amostra. 


Diagrama referente aos Estados 



Figura 31 - Dendograma referente aos estados, utilizando o metodo de 
agrupamento de ligagao simples. 
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Analisando-se o dendograma da Figura 31, pode-se concluir que nos 
estados do DF, GO, MS, SC e SP, no periodo de 1995 a 2002, a produgao de graos 
manteve-se semelhante, a qual foi inferior em relagao aos estados do RS, MT e o 
PR, que formaram grupos distintos no dendograma, ou seja, no decorrer do periodo, 
a produgao de graos, nesses estados, teve uma caracteristica propria, uma maior 
representatividade, formando, assim, grupos distintos dos demais. Pode-se 
observar, tambem, que o estado de GO e MS possuem a menor produgao de graos, 
seguidos de SC, DF e SP. Os demais estados nao foram representados no 
dendograma, devido ao fato de exercerem outras atividades economicas. Pode-se 
dizer, tambem, que GO e MS sao os estados que possuem a maior semelhanga no 
dendograma, por ter sido o primeiro grupo formado, ao contrario do PR que foi o 
ultimo grupo a ser formado, mantendo-se distinto dos demais. Esses tres estados 
foram os mais distintos no dendograma. 


4.2 Aplicagao da analise fatorial e analise de componentes principals 

Neste exemplo serao apresentados alguns principios gerais de interpretagao 
dos resultados numericos, e graficos da AF com ACP. 

A amostra utilizada, para este trabalho, refere-se a 30 coletas da fauna 
edafica do solo. As coletas foram realizadas na area experimental do Departamento 
de Solos, em uma area de campo nativo da UFSM/RS. O periodo, no qual os dados 
foram coletados, e de 06 de junho de 2004 a 04 de janeiro de 2005, com coleta 
semanal, sendo que essa tecnica possibilitara verificar a influencia das variaveis 
suplementares: temperatura e umidade, sobre a quantidade e diversidade de 
organismos existentes no solo. 

Para realizar a ACP, faz-se necessario o auxilio de urn software versao 7.0, 
pois a amostra em estudo possui a dimensao R 15 , ou seja, tem-se 15 variaveis. 

Essas variaveis suplementares sao utilizadas quando o pesquisador busca 
identificar o comportamento destas, em relagao as demais variaveis. 

Descrigao das variaveis envolvidas neste estudo: 

V, = Colembolos V 2 = Isopteros 

V 4 = Flermpteros 
V 6 = Coleopteros 


V 3 = Flymenopteros 
V 5 = Dipteros 
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V 7 = Aranae 

V 8 = Diplopodes 

V 9 = Chilopodas 

V 10 = Crustaceos 

V n = Acaros 

V 12 = Anelideos 

V 13 = Moluscos 

V 14 = Umidade (F) 2 0) 

V 15 = Temperatura 



A Figura 32 mostra o banco de dados com as variaveis 15 representadas 
nas colunas, e as 32 coletas que representam os objetos nas linhas. 
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Figura 32 - Caixa de selegao das variaveis e os objetos, para AF e ACP. 


Para a realizagao da analise, seleciona-se, no menu de opgoes o modulo 
principal do STATISTICA, a opgao: MultivariateExploratory Techniques - Factor 
Analysis, conforme a janela mostrada na Figura 33. 
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Figura 33 - Caixa de selegao da analise fatorial. 


Na Figura 34, apresenta-se a janela na qual sao apresentadas as variaveis 
para analise. Nessa janela, seleciona-se todas as variaveis clicando em Select All, 
isso se nao houver variaveis suplementares para serem analisadas, isto e, variaveis 
que se deseja verificar o seu comportamento em relagao as demais, sem que estas 
fagam parte da analise inicial. Se houver variaveis suplementares, essas devem ser 
analisadas apenas no circulo unitario, o qual oferece a opgao de analise para as 
mesmas. Deve-se proceder da seguinte forma: manter o Ctrl pressionado e 
selecionar, apenas, as variaveis desejadas, com o mouse. 





Quick 


Variables: none 


Input file: 


Raw Data 


H OK 



Figura 34 - Caixa de selegao das variaveis. 
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Na Figura 35, apos selecionadas as variaveis, deve-se informar na opgao da 
janela input file, se os dados sao os originais, conforme coletados, seleciona-se, 
Raw Data e Ok. 



Figura 35 - Caixa de selegao para ACP. 

Na Figura 36, determina-se o numero de fatores que se deseja ter, na 
analise, da seguinte forma: coloca-se no Maximum no. of factors o numero 
desejado. Neste caso, optou-se pelo numero total de variaveis que e 13, pois nao 
podera haver numero de fatores superior ao numero de variaveis. Em minimum 
eingevalue, aconselha-se informar urn valor bem baixo do tipo 0,001, pois, assim, 
obtem-se o maior numero possivel de autovalores, o que possibilita fazer uma 
investigagao melhor do estudo, caso contrario pode-se informar urn valor igual a 1 e 
obtem-se, entao, somente os autovalores superiores a 1 e, desta forma, segue-se a 
regra de KAISER (1960, apud MARDIA, 1979). 

Deve-se lembrar que nem sempre o pesquisador esta interessado nas 
primeiras componentes, as vezes as componentes com menor grau de explicagao 
sao as mais estaveis, merecendo a devida atengao. Realizado isso, clica-se em Ok. 
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Figura 36 - Janela de selegao do numero de fatores, para AF e ACP. 

A Figura 37 mostra a caixa de selegao de comandos para a extragao dos 
autovalores seleciona-se Explained variance/Eigenvalues. Nesta janela tem-se a 
opgao de verificar o metodo grafico Scree plot, que representa, graficamente, a 
porcentagem de variagao explicada pela componente nas ordenadas e os 
autovalores, em ordem decrescente, nas abscissas, sugerido por CATTEL (1966) e 
exemplificado por PLA (1986), as comunalidades, a proporgao de contribuigao de 
cada variavel factor loadings e outros valores de interesse. 



Figura 37- Caixa de selegao para extragao dos autovalores. 
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Na Tabela 23 apresenta-se o resultado dos autovalores, bem como a 
porcentagem de variancia explicada por cada componente, e tambem a variancia 
acumulada pelas mesmas. 

Numa analise fatorial, considerando-se 13 variaveis, poder-se-ia ter 13 
fatores que corresponderiam as variaveis originais. A escolha do numero de fatores 
pode levar em conta diferentes criterios. Um deles esta em incluir, na analise, 
aquelas componentes que conseguem sintetizar uma variancia acumulada em torno 
de 70%. Como se pode observar, na Tabela 23, quatro primeiros autovalores 
representam cerca de 74,31% da variancia. Portanto, os dados serao resumidos 
pelas quatro primeiras componentes principals. Pode-se, tambem, fazer, esta 
selegao, incluindo-se somente aquelas componentes cujos valores proprios sao 
superiores a 1. Neste caso, sao quatro autovalores, este criterio foi sugerido por 
KAISER (1960) apud MARDIA (1979). 


Tabela 23 - Autovalores e percentual da variancia explicada de cada componente. 


Numero de 
componentes 


Autovalores 

Extragao dos componentes principals 

Autovalores 

% da variancia 
explicada 

Autovalores 

acumulados 

% da variancia 
explicada acumulada 

1 

4,30 

33,05 

4,30 

33,05 

2 

2,35 

18,10 

6,65 

51,15 

3 

1,78 

13,66 

8,43 

64,82 

4 

1,23 

9,49 

9,66 

74,31 

5 

0,94 

7,27 

10,60 

81,58 

6 

0,83 

6,42 

11,44 

87,99 

7 

0,52 

3,98 

11,96 

91,97 

8 

0,35 

2,66 

12,30 

94,63 

9 

0,26 

1,99 

12,56 

96,62 

10 

0,19 

1,43 

12,75 

98,05 

11 

0,13 

0,99 

12,88 

99,04 

12 

0,09 

0,66 

12,96 

99,70 

13 

0,04 

0,30 

13,00 

100,00 
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Olhando para a Tabela 23, pode-se observar que os quatro primeiros fatores 
possuem autovalores, que correspondem a 33,05%, 18,10%, 13,66%, e 9,49% da 
variancia total, explicada pelos autovalores do modelo, ou seja, explicam juntos 
74,31% das variagoes das medidas originals. Decidindo-se por estes quatro fatores, 
o pesquisador sabe qual o nivel de explicagao esta conseguindo de seus dados, e 
decide se vale a pena a slntese fornecida por essa redugao de dimensionalidade, ou 
se deve considerar todas as variaveis. Conforme Pereira (2001), “essa e uma 
medida de ajuste do modelo a analise de dados: no exemplo, o modelo com quatro 
fatores tera 74,31% de representagao real”. 

A Figura 38 mostra a selegao dos componentes principais atraves do metodo 
grafico Scree Plot, sendo que a porcentagem de variagao explicada pela 
componente esta no eixo das ordenadas, e os autovalores estao representados em 
ordem decrescente no eixo das abscissas. Como se pode observar, na Figura 35, as 
quatro primeiras componentes explicam 74,31% da variancia total, havendo uma 
estabilizagao do grafico apos a quinta componente, sendo consideradas as quatro 
primeiras. Pode-se observar, tambem, que as outras componentes apresentam uma 
baixa explicagao, nao sendo aconselhavel inclui-las na analise. 



Figura 38- Grafico de explicagao da proporgao de variagao de cada componente principal. 
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A Figura 39 mostra a caixa de selegao e comandos das analises estatisticas 
que possam ser de interesse do pesquisador. Lembra-se, que essas estatisticas sao 
referentes as variaveis originais, e nao aos valores derivados das componentes 
principais. 



Figura 39 - Caixa de selegao das analises estatisticas. 


A Figura 40 mostra uma caixa de selegao na qual mais ferramentas 
estatisticas sao disponibilizadas, para se fazer uma analise complementar a AF e 
ACP. 

Como a AF e a ACP sao tecnicas exploratorias de dados, e importante que 
se realize uma estatistica descritiva nas variaveis, para que haja uma melhor 
compreensao nos resultados obtidos. 



Figura 40 - Caixa de comandos para analise descritiva dos dados. 
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A Figura 41 mostra a media e o desvio padrao de cada uma das variaveis 
originais, que se obtem selecionando-se Means & SD na Figura 40. 


Variaveis 

Means and Standard Deviations 
Casewise deletion of MD 
N=29 

Media 

Desvio padrao 


COLEM. 

1,09 

1,25 


ISOP. 

0,22 

0,59 


HYMENOP 

3,41 

3,83 


HEMIP. 

0,01 

0,05 


DIP. 

0,23 

0,28 


COLEOP. 

0,34 

0,49 


ARANAE 

0,15 

0,23 


DIPLOP. 

0,05 

0,15 


CHILOP. 

0,24 

0,64 


CRUSTACE 

0,06 

0,17 


ACAROS 

0,83 

1,03 


ANELID. 

2,36 

2,05 


MOLUSC. 

0,06 

0,13 



Figura 41 - Caixa de resultados da estatistica descritiva. 


Na Figura 42, apresenta-se o resultado da matriz de correlagao entre as 
variaveis, a qual e obtida selecionando-se, Advanced/ Correlations, conforme Figura 
40. 


Variaveis 

Correlagao 

COLEM. 

ISOP. 

HYMENOP 

HEMIP. 

DIP. 

COLEOP. 

ARANAE 

DIPLOP. 

CHILOP. 

CRUSTACE 

ACAROS 

ANELID. 

MOLUSC. j 

COLEM. 

1,00 

0,08 

-0,40 

0.68 

0,16 

0.68 

0,10 

0,27 

0,15 

0.71 

0.74 

0,40 

0,30 

ISOP. 


1,00 

0,22 

-0,07 

-0,11 

0,15 

-0,14 

0.60 

-0,11 

-0,11 

-0,13 

-0,06 

-0,06 

HYMENOP 



1,00 

-0,15 

-0,05 

-0,20 

0,04 

0,14 

-0,25 

-0,29 

-0,27 

-0,19 

-0,29 

HEMIP. 




1,00 

0,35 

0.85 

0,09 

-0,06 

0,00 

0.77 

0.73 

-0,03 

-0,09 

DIP. 





1,00 

0,29 

0,08 

-0,08 

-0,24 

0,11 

0,23 

0,00 

-0,34 

COLEOP. 






1,00 

0,02 

0,12 

-0,08 

0.63 

0.80 

-0,11 

-0,09 

ARANAE 







1,00 

0,03 

-0,18 

-0,01 

0,01 

0,07 

0,22 

DIPLOP. 








1,00 

0,05 

0,05 

0,09 

0,42 

0,29 

CHILOP. 









1,00 

0,49 

0,13 

0.50 

0,31 

CRUSTACE 










1,00 

0.75 

0,36 

0,23 

ACAROS 











1,00 

0,21 

0,20 

ANELID. 












1,00 

0,45 

MOLUSC. 













1,00 


Figura 42 - Caixa de resultados da matriz de correlagao. 


Com a matriz de correlagao, da Figura 42, e possivel observar que existe 
urn numero representative de valores superiores a 0,7, o que significa que a 
correlagao entre as variaveis esta de moderada a forte. Sendo assim, pode-se 
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concluir que as variaveis estao interligadas umas com as outras. O ideal e realizar 
um teste de significance para as correlagoes, pois desta forma tem-se a certeza se 
a correlagao e significativa ou nao. O que chancela para a realizagao da AF seria o 
KMO teste e o teste de Bartellet. Isso mostra que o estudo das variaveis nao deve 
ser feito de forma isolada, mas, sim, de maneira conjunta, com a utilizagao de uma 
tecnica adequada, neste estudo a ACP. 

A Figura 43 mostra a caixa de selegao de comandos para ACP, seleciona- 
se: Scores/Factor score coefficients, para extrair os autovetores, que definam a 
diregao dos eixos, para AF e ACP. 



Figura 43 - Caixa de selegao dos autovetores. 


Na Figura 44, sao apresentados os resultados dos factor Score coefficientes 
(autovetores), que definem a diregao dos eixos para ACP. 


Variable 

Factor Score Coefficients (Sattistica ACP e AF) 

Rotation: Unrotated 

Extraction: Principal components 

Factor 

1 

Factor 

2 

Factor 

3 

Factor 

4 

Factor 

5 

Factor 

6 

Factor 

7 

Factor 

8 

Factor 

9 

Factor 

10 

Factor 

11 

Factor 

12 

Factor 

13 

COLEM. 

-0,21 

0,04 

-0,08 

-0,08 

0,04 

-0,18 

0,06 

-0,62 

0,70 

-0,14 

1,90 

0,49 

0,46 

ISOP. 

0,01 

0,03 

-0,49 

0,17 

0,09 

-0,15 

-0,55 

0,27 

0,66 

-0,89 

-0,54 

0,09 

-0,70 

HYMENOP 

0,10 

-0,09 

-0,24 

-0,04 

-0,11 

0,86 

0,46 

0,14 

0,31 

-0,23 

0,57 

-0,20 

0,51 

HEMIP. 

-0,19 

-0,18 

-0,01 

0,01 

0,07 

0,21 

-0,13 

-0,02 

0,46 

1,03 

-0,36 

-1 ,03 

-3,02 

DIP. 

-0,06 

-0,22 

0,02 

-0,16 

-0,75 

-0,25 

-0,03 

0,82 

0,17 

-0,07 

0,31 

0,11 

0,27 

COLEOP. 

-0,19 

-0,18 

-0,13 

0,05 

0,19 

-0,03 

-0,06 

0,07 

-0,60 

-0,22 

-0,09 

-1 ,93 

2,67 

ARANAE 

-0,02 

0,01 

0,02 

-0,73 

0,09 

0,25 

-0,67 

-0,10 

-0,28 

-0,30 

-0,05 

0,24 

-0,11 

DIPLOP. 

-0,04 

0,19 

-0,45 

-0,07 

-0,16 

-0,08 

0,12 

0,01 

-0,94 

1,15 

0,20 

0,57 

-0,23 

CHILOP. 

-0,07 

0,27 

0,17 

0,34 

-0,15 

0,33 

-0,63 

0,43 

-0,47 

-0,22 

1,03 

-0,50 

-0,63 

CRUSTACE 

-0,21 

0,04 

0,07 

0,13 

-0,01 

0,31 

-0,19 

0,14 

0,39 

0,48 

-1 ,03 

1,79 

2,15 

ACAROS 

-0,21 

-0,05 

0,01 

0,01 

0,08 

0,06 

0,51 

0,13 

-0,75 

-1 ,23 

-0,26 

0,99 

-1 ,91 

ANELID. 

-0,08 

0,31 

-0,00 

-0,09 

-0,52 

0,06 

0,20 

-0,69 

0,26 

-0,43 

-1 ,01 

-1 ,17 

0,05 

MOLUSC. 

-0,06 

0,31 

0,03 

-0,26 

0,32 

-0,11 

0,44 

1,01 

0,52 

0,13 

0,02 

-0,63 

0,17 


Figura 44 - Caixa de resultados dos autovetores. 
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No exemplo, que segue, e mostrado o calculo manual das componentes 
principals: 

CPt = (Autovetor 11)(Variavel 11) + (Autovetor 21 )(Variavel 12) + (Autovetor 31 )(Variavel 13) + + 

(Autovetor 131)(Variavel 113) 

CP„ = (-0,21 )(5, 5) + (0,01)(0) + (0,1 0)(0,5) + (-0,19)(0,25) + (-0,06)(0,75) + (-0,19)(2,5) + 
(-0,02)(0,25) + (-0,04)(0) + (-0,07)(0,25) + (-0,21)(0,75) + (-0,21)(4,75) + (-0,08)(2) + (-0,06)(0) 
CP„ =-3,01 

CP 12 = (-0,21 )(4) + (0,25)(0) + (0,10)(0,75) + (-0,19)(0) + (-0,06)(0) + (-0,19)(0,5) + (-0,02)(0,25) + 
(-0,04)(0,5) + (-0,07)(0,75) + (-0,21 )(0,25) + (-0,21 )(2, 5) + (-0,08)(7,5) + (-0,06)(0,5) 

CP 12 = -2,15 

Como pode-se observar, o valor da primeira componente principal, 
realizando-se os calculos de forma manual, e -3,01, e o valor encontrado pelo 
software e de -4,35, conforme Figura 50. Isso ocorre devido a transformagao 
realizada pelo programa ao rodar os dados, ou seja, o valor das componentes 
principals, encontradas de forma manual, nao sera o mesmo que o fornecido pela 
analise. 

Para encontrar os componentes principals, atraves do software, deve-se 
selecionar a opgao do programa statistica, referente a esta analise. Para isso 
seleciona-se: Multivariate Exploratory Techniques - Principal Components & 
Classification Analysis, conforme a Figura 45: 


4* Resume.., Ctrl+R 


■ i^Sti Basic Statistics/Tables 
: [/_ Multiple Regression 
. §1 ANOVA 

Nonparametrics 
' Distribution Fitting 


1 Advanced Linear/Nonlinear Models ► 


' Multivariate Exploratory Techniques 

p Cluster Analysis 

H§! Industrial Statistics & Six Sigma ► 

p(s Factor Analysis 


@ Principal Components & Classification Analysis 

Data-Mining ► 

IHI Statistics of Block Data ► 

Canonical Analysis 
Reliability/Item Analysis 
AA Classification Trees 

Correspondence Analysis 
Multidimensional Scaling 

£j] STATISTICA Visual Basic 

Probability Calculator ► 


Discriminant Analysis 

[z 3 General Discriminant Analysis Models 


Figura 45 - Caixa de selegao da ACP. 
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A Figura 46 mostra a caixa de selegao de variaveis e comandos para ACP. 
Clica-se em Variables e o programa mostrara todas as variaveis, e e so clicar em 
Ok. 


^Principal Components and Classification Analysis: SPREADSH ? - 


Quick | Advanced 
Variables: | 

Variables for analysis: none 

Supplementary variables: none 

Variable with active cases: none 

Grouping variable (labeling): none 


OK 


Cancel 


& Options ▼ 
Open Data 


MD deletion 
'* Casewise 

1 Mean 
substitution 


Figura 46 - Caixa de selegao da ACP. 


Na Figura 47, apresenta-se a totalidade de variaveis para analise. Neste 
caso, apos selecionadas as variaveis, clica-se em Ok. 



Figura 47 - Caixa de selegao das variaveis para ACP. 
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A Figura 48, na opgao Variables for analysis: mostra que todas as variaveis 
foram selecionadas, nao existindo variaveis suplementares para o estudo, basta 
clicar em Ok. 


Ea Principal Components and Classification Analysis: Sattistica 


Quick I Advanced | 

Variables: 

Variables for analysis: 1-13 

Supplementary variables: none 

Variable with active cases: none 
Grouping variable (labeling): none 


OK 


Cancel 


J3 Options ▼ 
S? Open Data 


surer „ 
s 


MD deletion 

Casewise 

C Mean 
substitution 


Figura 48 - Caixa de selegao da ACP. 

A Figura 49 mostra a caixa de selegao para encontrar os componentes 
principais, seleciona-se Cases/Factor scores, e clica-se em Ok. 


Ew Principal Components and Classification Analysis Results: Satti 


No. of active vars: 13 
No. of active cases: 29 


No. of supplementary vars: 0 
No. of supplementary cases: 0 


Eigenvalues: 4.29683 2,35310 1,77643 1,23373 ,944747 ... I^| t 


Number of factors : |13 ^ Quality of representation : 1 00,0 
Quick | Variables Cases j Descriptives | 


Until OK 


Cancel 


Bli Factor coordinates of cases 

HI 

Factor scores 



1--"1 Plot case factor coordinates, 2D 


Factor score coefficients 


Options for plot of factor coord. 
1 • Case names 
C Case numbers 
C No names/numbers 

r Grouping labels 

Plot cases with rr nn 

sum of cosine 2 >= I J H 


Contributions of cases 


Cosine 2 


Hg Save case statistics | 
Factor coordinates 
C Factor scores 


J3 Options'" 


Figura 49 - Caixa de selegao dos componentes principais. 
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A Figura 50 refere-se aos componentes principals encontrados na analise. E 
importante observar que, pelo fato de existir 13 variaveis, foram encontrados 13 
componentes, mas pela analise fatorial, seguindo o criterio sugerido por KAISER 
(1960) apud MARDIA (1979), deve-se considerar apenas as primeiras quatro 
componentes principals. 


Case 

Componentes Principais 

Factor 1 

Factor 2 

Factor 3 

Factor 4 

Factor 5 

Factor 6 

Factor? 

Factor 8 

Factor 9 

Fact. 10 

Fact.11 

Fact. 12 

Fact. 13 

Cl 

-4,35 

-2,24 

-0,05 

0,05 

0,32 

0,92 

-0,34 

-0,04 

0,61 

1,00 

-0,24 

-0,46 

-0,60 

C2 

-1,68 

2,85 

-1,08 

-1,23 

0,24 

-0,54 

2,00 

0,29 

-0,53 

0,49 

1,14 

0,59 

0,64 

C3 

-0,45 

-0,96 

0,14 

0,56 

0,80 

-0,54 

1,35 

0,42 

-2,84 

-2,57 

0,25 

0,37 

-0,25 

C4 

0,20 

-0,50 

0,20 

-1,86 

0,72 

-0,40 

-2,72 

-0,56 

-0,69 

-0,10 

0,68 

0,37 

1,76 

C5 

0,12 

-0,71 

0,35 

0,57 

0,52 

-0,91 

0,17 

0,35 

-1,61 

0,06 

-0,72 

-0,91 

1 ,59 

C6 

0,05 

0,21 

-0,04 

0,27 

1,79 

-1,02 

0,73 

1,45 

0,59 

-0,38 

-0,15 

-0,91 

0,07 

C7 

0,14 

-0,09 

-0,55 

0,79 

0,89 

-0,93 

-0,49 

-1,20 

1,34 

-1 ,33 

0,58 

0,94 

-1,30 

C8 

0,23 

0,10 

-4,09 

1,03 

-0,02 

-0,67 

-1,82 

1,00 

0,62 

-0,25 

-0,55 

-0,08 

0,43 

C9 

0,05 

0,83 

-1,76 

-0,56 

-1 ,52 

0,60 

0,35 

-1,26 

-2,21 

1,61 

-0,36 

-0,08 

-1,14 

CIO 

-0,01 

0,19 

0,41 

0,25 

-0,73 

-1,12 

0,42 

-1,98 

0,72 

-0,14 

-0,37 

-1,23 

0,36 

C11 

0,44 

0,65 

0,47 

-2,40 

1,17 

0,59 

-0,90 

0,49 

0,27 

0,03 

-1 ,36 

-0,48 

-0,98 

C12 

-0,17 

0,31 

0,63 

0,83 

0,19 

-0,18 

0,00 

-1,34 

-0,14 

0,30 

-2,79 

1 ,87 

1 ,67 

C13 

-1,19 

2,75 

1,52 

1,74 

-0,75 

1,48 

-1,45 

1,06 

0,39 

-1 ,04 

-0,11 

0,94 

0,55 

C14 

-0,23 

0,95 

0,40 

-1,76 

0,77 

-0,30 

0,25 

-0,96 

0,84 

-1,19 

-0,28 

-1,51 

-0,46 

C15 

0,28 

0,74 

0,87 

1,47 

-0,02 

0,33 

-1 ,69 

-0,17 

-1,26 

0,46 

1 ,64 

-2,45 

-1 ,06 

C16 

-0,25 

-0,77 

0,47 

-1,06 

-3,01 

-1 ,58 

-0,25 

1,34 

0,43 

-1,11 

0,74 

0,37 

0,23 

C17 

0,56 

-0,30 

-0,88 

0,68 

0,33 

1,69 

1,10 

-0,40 

0,96 

-1 ,85 

-0,38 

-0,41 

-0,64 

C18 

0,46 

-0,73 

0,31 

-0,49 

-0,41 

0,03 

-0,16 

0,93 

-0,22 

0,08 

0,81 

2,21 

-1,31 

C19 

0,36 

-0,30 

0,51 

0,47 

-0,02 

-0,99 

0,05 

-0,23 

-0,51 

0,65 

-1 ,19 

-0,11 

-0,26 

C21 

0,77 

-0,27 

0,20 

-0,23 

0,62 

0,93 

-0,09 

-0,52 

-0,21 

0,60 

-0,48 

0,81 

-0,80 

C22 

0,30 

-0,19 

0,40 

-0,63 

-1,19 

-0,32 

-0,16 

-0,39 

0,37 

-0,22 

-0,60 

0,31 

-0,92 

C23 

0,14 

-0,19 

0,30 

0,51 

0,92 

-0,96 

0,06 

-1 ,73 

0,73 

0,92 

2,65 

0,97 

0,87 

C24 

0,58 

-0,50 

-0,05 

0,19 

-1,30 

0,82 

0,97 

0,35 

0,90 

0,39 

-0,05 

-1,66 

2,14 

C25 

0,32 

-0,20 

0,22 

0,13 

-1,41 

-0,12 

0,88 

-0,40 

1,04 

-0,10 

0,05 

-0,12 

-0,40 

C26 

0,92 

-0,46 

-0,07 

0,56 

0,58 

1,43 

0,92 

-0,17 

0,63 

1,13 

0,95 

0,64 

0,36 

C27 

0,54 

0,02 

0,56 

0,68 

-0,46 

-0,11 

-0,20 

0,09 

-0,26 

0,66 

-0,53 

-0,27 

-1,40 

C28 

0,57 

0,13 

0,59 

0,02 

0,87 

-1 ,00 

0,64 

2,41 

0,91 

1 ,94 

-0,35 

0,02 

-0,36 

C29 

0,73 

-0,73 

-0,28 

-1,22 

-0,04 

2,61 

0,10 

0,42 

-0,27 

-0,64 

0,71 

0,06 

1,19 

C30 

0,56 

-0,55 

0,28 

0,64 

0,14 

0,26 

0,24 

0,76 

-0,61 

0,60 

0,32 

0,20 

0,04 


Figura 50 - Componentes principals, referente as treze variaveis. 


Quando os dados estiverem dispostos em unidades de medidas diferentes, 
deve-se eliminar a influencia que uma variavel podera causar sobre a outra na 
formagao das componentes. Deve-se fazer entao a padronizagao dos dados. 

Utilizando-se o software statistica, pode-se padronizar o conjunto de dados, 
fazendo-se a selegao do banco de dados inicial, conforme a Figura 51 . 
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Figura 51 - Selegao das variaveis para a padronizagao dos dados. 


Logo apos, clicar, com o botao auxiliar, no meio da tela, na qual estao as 
variaveis selecionadas. Abrira a caixa de selegao da Figura 52, na qual existem duas 
opgbes de padronizagao: por colunas, sendo esta a utilizada neste trabalho, 
selecionando Fill/Standardize Block/Standardize Columns, ou por linhas, 
selecionando Fill/Standardize Block/Standardize Rows. 
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Figura 52 - Caixa de selegao para a padronizagao das variaveis. 
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A Figura 53 mostra as variaveis padronizadas. 
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Figura 53 - Variaveis padronizadas. 


Apos ter-se realizado a padronizagao das variaveis, deve-se encontrar a 
contribuigao de cada variavel, em relagao aos fatores formados nos Factor Loading. 

Existem duas formas de encontrar esta contribuigao: 

1°) Uma forma e atraves da matriz de correlagao entre as variaveis originais e as 
componentes principais. Para verificar a correlagao existente entre as variaveis 
originais e as componentes principais, deve-se selecionar, na Figura 54, a opgao 
Save case statistics e a opgao Factor Scores deve estar selecionada, Ok. 
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Figura 54 - Caixa de selegao para analise de componentes principais. 


Selecionar as variaveis, que se deseja salvar, e Ok, conforme Figura 55: 



Figura 55 - Caixa de variaveis para analise de componentes principais. 


A Figura 56 mostra as variaveis originais, e as componentes principais, que 
serao utilizadas para compor as correlagoes, dentro de cada fator. 
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028 

0 

0 

1 

0 

0,25 

0 

0 

0 

0 

0 

0 

0 

0,25 

0,574028 

029 

0 

0 

13,5 

0 

0,25 

0,25 

0,5 

0 

0 

0 

0,5 

1 

0 

0,730301 

030 

0 

0 

5 

0 

0,25 

0,25 

0 

0 

0,25 

0 

0,5 

0,25 

0 

0,558045 


15 

CP2 

16 

CP3 

17 

CP4 

18 

CP5 

19 

CP6 

20 

CP7 

21 

CP8 

22 

CP9 

23 

CP10 

24 

CPU 

25 

CP12 

26 

CP13 

-2,24423 

-0,04868 

0,045066 

0,320024 

0,916503 

-0,33603 

-0,03837 

0,613131 

0,997849 

-0,23859 

-0,4574 

-0,6027 

2,85367 

-1 ,07679 

-1,23137 

0,240871 

-0,53661 

2,003616 

0,287993 

-0,53059 

0,491669 

1,138933 

0,585468 

0,637425 

-0,96215 

0,135435 

0,555941 

0,802186 

-0,53972 

1,351973 

0,418824 

-2,83757 

-2,57494 

0,24924 

0,370741 

-0,24767 

-0,5011 

0,204612 

-1 ,86302 

0,71915 

-0,39949 

-2,72227 

-0,55702 

-0,68897 

-0,09961 

0,683187 

0,36656 

1,759111 

hi 

CD 

0,348211 

0,571147 

0,516068 

-0,91219 

0,173266 

0,347733 

-1 ,60666 

0,06204 

-0,72186 

-0,91182 

1,593186 

0,212946 

-0,03653 

0,270617 

1 ,793056 

-1,01625 

0,730813 

1 ,445644 

0,591418 

-0,38153 

-0,151 

-0,9122 

0,070253 

-0,09378 

-0,54786 

0,789884 

0,886793 

-0,9333 

-0,48736 

-1,19769 

1,341815 

-1 ,3254 

0,578567 

0,938216 

-1 ,30112 

0,09651 

-4,08632 

1,033191 

-0,02392 

-0,67252 

-1,81771 

0,999085 

0,621389 

-0,24875 

-0,55184 

-0,08268 

0,425007 

0,828292 

-1 ,76432 

-0,56051 

-1 ,52054 

0,599324 

0,347053 

-1 ,25742 

-2,20568 

1,613523 

-0,36041 

-0,07633 

-1,14056 

0,18928 

0,406905 

0,248519 

-0,72785 

-1,1188 

0,420075 

-1 ,98009 

0,719606 

-0,14068 

-0,37072 

-1 ,22845 

0,360953 

0,653891 

0,471652 

-2,40481 

1,172183 

0,591603 

-0,90048 

0,494169 

0,272328 

0,028245 

-1,36122 

-0,4806 

-0,98147 

0,30661 

0,632828 

0,834404 

0,189025 

-0,18023 

0,002259 

-1 ,34448 

-0,14316 

0,299065 

-2,78742 

1 ,872977 

1 ,665305 

2,745219 

1 ,520445 

1 ,73795 

-0,75091 

1 ,482996 

-1 ,44972 

1 ,059697 

0,38551 

-1 ,03848 

-0,10627 

0,940144 

0,549472 

0,954897 

0,399012 

-1 ,7574 

0,774815 

-0,29522 

0,246199 

-0,95972 

0,842315 

-1,19098 

-0,27796 

-1 ,50823 

-0,45746 

0,742304 

0,871166 

1 ,474595 

-0,02031 

0,328036 

-1 ,68502 

-0,16954 

-1 ,26089 

0,457791 

1 ,63853 

-2,44684 

-1 ,05589 

-0,77324 

0,470669 

-1 ,05849 

-3,00962 

-1,58151 

-0,2455 

1 ,335581 

0,432769 

-1,10593 

0,737058 

0,374236 

0,233389 

-0,30032 

-0,88169 

0,684006 

0,330228 

1 ,68742 

1,096151 

-0,40244 

0,962936 

-1 ,85223 

-0,3839 

-0,40829 

-0,64226 

-0,73382 

0,31204 

-0,48735 

-0,41109 

0,028993 

-0,15909 

0,926354 

-0,22258 

0,082945 

0,81239 

2,214123 

-1,3122 

-0,30478 

0,508751 

0,47104 

-0,0197 

-0,98569 

0,051624 

-0,22535 

-0,50769 

0,651174 

-1,18833 

-0,10623 

-0,25644 

-0,26756 

0,203524 

-0,22961 

0,620509 

0,92987 

-0,08684 

-0,5205 

-0,21318 

0,596961 

-0,48363 

0,81487 

-0,8021 

-0,18817 

0,400938 

-0,63025 

-1,18621 

-0,32341 

-0,16171 

-0,3883 

0,369252 

-0,2151 

-0,60293 

0,307074 

-0,916 

-0,19317 

0,297769 

0,509216 

0,918769 

-0,96359 

0,063213 

-1 ,7345 

0,726933 

0,917555 

2,645428 

0,97035 

0,867584 

-0,50422 

-0,04607 

0,191155 

-1,30166 

0,823897 

0,974518 

0,34507 

0,900745 

0,385304 

-0,05022 

-1,66413 

2,13826 

-0,20391 

0,224557 

0,128931 

-1 ,40957 

-0,11944 

0,884531 

-0,39809 

1 ,038903 

-0,10018 

0,047607 

-0,12277 

-0,39946 

-0,45565 

-0,06778 

0,558077 

0,584202 

1 ,429244 

0,91781 

-0,17093 

0,634205 

1,127169 

0,948085 

0,63825 

0,355407 

0,016831 

0,564525 

0,680477 

-0,46368 

-0,11135 

-0,19766 

0,094293 

-0,25762 

0,66068 

-0,52698 

-0,26614 

-1 ,40357 

0,125854 

0,588238 

0,017231 

0,873435 

-1 ,00047 

0,638288 

2,409713 

0,91015 

1 ,940671 

-0,34742 

0,018365 

-0,36173 

-0,73461 

-0,28382 

-1,2167 

-0,03769 

2,609354 

0,103262 

0,422418 

-0,27381 

-0,64098 

0,713183 

0,064152 

1,189192 

-0,55117 

0,278592 

0,638052 

0,141445 

0,262567 

0,244729 

0,757866 

-0,61499 

0,602138 

0,3185 

0,1966 

0,036099 


Figura 56 - Caixa com variaveis originais e as componentes principals. 
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Para fazer a matriz de correlagao, seleciona-se Statistics/Basic 
Statistics/Tables, conforme Figura 57: 



Figura 57 - Caixa de selegao da estatistica descritiva. 

Selecionando, na Figura 58, Correlation matrices e Ok, abre-se uma caixa 
de opgoes para encontrar a matriz de correlagao entre as variaveis originais e as 
componentes principais. 


S Basic Statistics and Tables: Spreadsh ? - 


Quick 


JMl Descriptive statistics 


Correlation matrices 


||j] t-test, independent by groups 
t-test, independent, by variables 
[^] t-test, dependent samples 
||x t-test, single sample 


Breakdown 8c one-way AN OVA 
Frequency tables 
T ables and banners 
Multiple response tables 


pgPfK Difference tests: r, Z, means 
Probability calculator 


OK 


Cancel 


J3 Options ▼ | 


£? Open Data 

s w 


Figura 58 - Caixa de selegao para matriz de correlagao entre variaveis originais 
e as componentes principais. 


Selecionando a opgao Two lists (red. matrix), e possivel visualizar todas as 
variaveis e as componentes que se deve selecionar, para que seja possivel verificar 
as correlagdes, conforme Figura 59. 
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liSi Product-Moment and Partial Correlations: Spre 








[cQ One variable list 

Two lists (rect. matrix) 


imml 

Summary 

J 


First list: none 

Second list: none 


Cancel 


Quick | Advanced/plot Options 

IttotJ Summary: Correlation matrix 

Scatterplot matrix for selected variables 


IS Options ▼ 


s w 


r 


(* w-i r n 

MD deletion 
'• Casewise 
Pairwise 


Figura 59 - Caixa de selegao das variaveis que irao compor a matriz de correlagao. 


A Figura 60 mostra as variaveis e as componentes a serem selecionadas. 


Select one or two variable lists 



1 -CO LEM. 

ii-Acaros 

2-1 SOP. 

12-ANELID. 

3-HYMEN0P 

13-M0LUSC. 

4-HEMIP. 

14-Factorl 

5-DIP. 

15-Factor2 

6-COLE OP. 

1 6-Factor3 

7-ARANAE 

1 7-Factor4 

8-DIPL0P. 

18-Factor5 

9-CHI LOP. 

1 9-Factor6 

10-CRUSTACE 

20-Factor7 


|< mi | 

> 

Select All Spread 

Zoom 

First variable list: 


1-13 


11-ACAR0S 

21 -Factor8 

12-ANELID. 

22-Factor9 

13-M0LUSC. 

23-Factorl 0 

14-Factorl 

24-Factorll 

15-Factor2 

25-Factorl 2 

1 6- Factor3 

1 7- Factor4 

1 8- Factor5 

1 9- Factor6 

20- Factor7 

26-Factorl 3 

|<] | 

mi > 


Select All Spread Zoom 
Second variable list (optional): 

114-26 


OK 


Cancel 


Figura 60 - Caixa com as variaveis e as componentes selecionadas. 


Na Figura 61, selecionando a opgao Summary: Correlation matrix, encontra- 
se a matriz de correlagao. 
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i23i Product-Moment and Partial Correlations: 



!cb! One variable list | Iwo lists (rect. matrix) 

First list: COLEM.-MOLUSC. 

Second list: Factorl -Factorl 3 

Quick | Advanced/plot | Options | 

ItttttI Summary: Correlation matrix | 

FM Scatterplot matrix for selected variables 



JS Options ▼ 


(Only single-list 
square matrices can 
be saved) 

1 _\ & 

r We ' 9 ht f d 


<:• w-i r n 

MD deletion 
(* Casewise 
( Pairwise 


Figura 61 - Caixa de selegao da matriz de correlagao. 


A Figura 62 mostra a matriz de correlagao entre as variaveis originais e as 
componentes principais e a contribuigao de cada variavel em relagao a cada fator. 


Variaveis 

Correlagao entre os dados originais e as componentes principais 
As correlagoes significativas estao em vermelho e ocorrem quando p < ,05000 
N=29 (numero de observagoes) 

Factorl 

Factor2 

Factor3 

Factor4 

Factors 

Factor6 

Factor7 

Factor8 

Factor9 

FactorlO 

Factorl 1 

Factor12 

Factor13 

COLEM. 

-0,89 

0,09 

-0,15 

-0,09 

0,03 

-0,15 

0,03 

-0,21 

0,18 

-0,03 

0,25 

0,04 

0,02 

ISOP. 

0,06 

0,07 

-0,88 

0,21 

0,09 

-0,13 

-0,29 

0,09 

0,17 

-0,17 

-0,07 

0,01 

-0,03 

HYMENOP 

0,41 

-0,22 

-0,43 

-0,04 

-0,11 

0,72 

0,24 

0,05 

0,08 

-0,04 

0,07 

-0,02 

0,02 

HEMIP. 

-0,84 

-0,43 

-0,01 

0,01 

0,06 

0,18 

-0,06 

-0,01 

0,12 

0,19 

-0,05 

-0,09 

-0,12 

DIP. 

-0,25 

-0,52 

0,03 

-0,19 

-0,71 

-0,21 

-0,02 

0,28 

0,05 

-0,01 

0,04 

0,01 

0,01 

COLEOP. 

-0,81 

-0,43 

-0,23 

0,06 

0,18 

-0,03 

-0,03 

0,02 

-0,16 

-0,04 

-0,01 

-0,17 

0,10 

ARANAE 

-0,07 

0,01 

0,03 

-0,90 

0,09 

0,21 

-0,35 

-0,04 

-0,07 

-0,06 

-0,01 

0,02 

-0,00 

DIPLOP. 

-0,16 

0,44 

-0,80 

-0,09 

-0,15 

-0,07 

0,06 

0,00 

-0,24 

0,21 

0,03 

0,05 

-0,01 

CHILOP. 

-0,28 

0,63 

0,30 

0,42 

-0,14 

0,28 

-0,33 

0,15 

-0,12 

-0,04 

0,13 

-0,04 

-0,02 

CRUSTACE 

-0,89 

0,10 

0,13 

0,17 

-0,01 

0,26 

-0,10 

0,05 

0,10 

0,09 

-0,13 

0,15 

0,08 

ACAROS 

-0,90 

-0,12 

0,01 

0,01 

0,07 

0,05 

0,26 

0,05 

-0,19 

-0,23 

-0,03 

0,08 

-0,07 

ANELID. 

-0,35 

0,72 

-0,00 

-0,11 

-0,49 

0,05 

0,10 

-0,24 

0,07 

-0,08 

-0,13 

-0,10 

0,00 

MOLUSC. 

-0,26 

0,73 

0,06 

-0,32 

0,30 

-0,09 

0,23 

0,35 

0,14 

0,02 

0,00 

-0,05 

0,01 


Figura 62 - Matriz de correlagao entre as variaveis originais e as componentes principais. 


Na Figura 62, os valores que estao em destaque representam a contribuigao 
de cada variavel em cada fator, ou seja, no fator 1, -0,89; 0,41; -0,84; -0,81; -0,89 e 
-0,90 que sao as que estao em destaque neste fator, ou ainda, sao as que melhor o 
explicam este fator. 
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2°) Outra forma de encontrar a contribuigao das variaveis em relagao aos fatores 
formados, e mediante os Factor loadings. Aqui, o numero de fatores a serem 
utilizados na analise e quatro, pois foram apenas esses os autovalores superiores a 
1, encontrados na analise, conforme Tabela 23. 

A Figura 63 mostra a caixa de selegao de comandos para a ACP. 
Retornando para a AF, seleciona-se: Loadings/ Factor rotation seleciona-se 
unrotated/ Summary: Factor loadings, para ver quanto cada variavel contribui na 
formagao de cada componente. Tambem nesta janela tem-se a opgao de verificar o 
metodo grafico Plot of loadings, 2D, que representa, graficamente, os pianos 
fatoriais, mostrando a importancia de cada variavel no estudo. Nesta janela ainda ha 
a opgao do metodo grafico Plot of loadings, 3D, que possibilita identificar a 
localizagao das variaveis num espago tri-dimensional. 



Figura 63 - Caixa de selegao dos Factor Loadings. 

Conforme Pereira (2001), “o passo final da AF e verificar se os fatores, que 
sao dimensoes abstratas, podem ser interpretados de forma coerente com a 
natureza dos fenomenos estudados”. Para isso, deve-se analisar a matriz fatorial, na 
qual estao os factor loadings, e verificar quais as variaveis que melhor se 
correlacionam com cada fator. 

Em ACP, a derivagao de fatores se da por varias rotagoes de eixos que 
melhor expressem a dispersao dos dados. No modelo fatorial final, as variagoes das 
medidas estao maximizadas, e as relagoes entre dimensoes suavizadas. Devido a 
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isso, o pesquisador devera buscar relagao entre os fatores e as variaveis originais 
numa matriz fatorial rodada (PEREIRA, 2001). 

A Figura 64 mostra o resultado dos Factor Loadings, antes da rotagao nos 
eixos, e mostra a contribuigao das variaveis na formagao dos componentes. 


Variaveis 

Factor Loadings 

Extragao das compentes principais 

Factor 

1 

Factor 

2 

Factor 

3 

Factor 

4 

COLEM. 

-0,89 

0,09 

-0,14 

-0,09 

ISOP. 

0,04 

0,07 

-0,88 

0,21 

HYMENOP 

0,38 

-0,21 

-0,45 

-0,04 

HEMIP. 

-0,83 

-0,43 

0,01 

0,01 

DIP. 

-0,27 

-0,51 

0,00 

-0,18 

COLEOP. 

-0,82 

-0,43 

-0,22 

0,05 

ARANAE 

-0,06 

0,01 

0,05 

-0,90 

DIPLOP. 

-0,17 

0,44 

-0,80 

-0,09 

CHILOP. 

-0,28 

0,63 

0,30 

0,42 

CRUSTACE 

-0,89 

0,10 

0,14 

0,17 

Acaros 

-0,90 

-0,12 

0,01 

0,01 

ANELID. 

-0,36 

0,72 

-0,01 

-0,10 

MOLUSC. 

-0.27 

0.72 

0.05 

-0.32 


Figura 64 - Composigao dos fatores. 


Na Figura 64, pode-se visualizar as ponderagoes de cada variavel que irao 
compor a combinagao linear. Observa-se que os valores em destaque sao os que 
possuem uma significancia maior que 0,7. Este valor de significancia pode ser 
alterado segundo as necessidades do pesquisador, conforme mostra a Figura 63, 
sob o nome de Highlight factor loadings greater than. 

O ideal e identificar, em cada combinagao linear, urn conjunto de variaveis 
que representa este fator e, a partir dai, atribuir-se urn nome para o fator. Esta 
abstragao, para o fator, passa a identifica-lo, representando urn conjunto de 
variaveis. Quando esta identificagao ficar dificil, por apresentar mais de urn grupo de 
variaveis significativas no mesmo fator, ou em fatores diferentes, recorre-se a 
realizagao de rotagoes, pois, desta forma, mantem-se a mesma inercia no conjunto 
analisado, mas os eixos sao rotacionados, possibilitando uma melhor visualizagao 
da disposigao dos pontos. Existem diversos tipos de rotagoes, as quais devem ser 
estudadas para maior entendimento, e deve-se verificar em quais situagoes elas 
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devem ser utilizadas. A rotagao mais utilizada e a Varimax normalizada, pois esta 
mantem os eixos perpendiculares entre si, ou seja, ortogonais. 

A Figura 65 mostra a caixa de selegao de comandos para ACP, seleciona- 
se: Loadings/ no Factor rotation (Varimax normalized)/Summary:Factor loadings, 
para se fazer a rotagao nos eixos, possibilitando uma melhor visualizagao das 
variaveis mais representativas em cada componente. 



Figura 65 - Caixa de selegao para a rotagao varimax normalized. 


A Figura 66 mostra o resultado dos Factor Loadings, apos a rotagao varimax 
normalized. 


Variaveis 

Factor Loadings apos a rotagao dos eixos 
Extragao das componentes principais 

Factor 

1 

Factor 

2 

Factor 

3 

Factor 

4 

COLEM. 

0,82 

0,36 

0,13 

0,10 

ISOP. 

0,01 

-0,09 

0,88 

-0,17 

HYMENOP 

-0,26 

-0,38 

0,42 

0,07 

HEMIP. 

0,92 

-0,13 

-0,10 

0,03 

DIP. 

0,41 

-0,37 

-0,10 

0,22 

COLEOP. 

0,92 

-0,17 

0,13 

-0,01 

ARANAE 

0,02 

0,10 

-0,08 

0,89 

DIPLOP. 

0,08 

0,35 

0,85 

0,10 

CHILOP. 

0,06 

0,69 

-0,19 

-0,48 

CRUSTACE 

0,81 

0,39 

-0,13 

-0,18 

ACAROS 

0,89 

0,18 

-0,05 

0,00 

ANELID. 

0,12 

0,79 

0,12 

0,05 

MOLUSC. 

0.01 

0,79 

0,05 

0,27 


Figura 66 - Composigao dos fatores. 
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Observa-se, na Figura 66, que a rotagao varimax normalized possibilitou 
uma melhor visualizagao dos fatores, nos quais a proporgao de variagao das 
variaveis esta melhor representada. Observa-se que os valores que possuem uma 
significance igual, ou superior, a 0,7 estao em destaque em cada fator. 

Neste estudo, utilizar-se-a todos os quatro fatores que possuem as variaveis 
explicativas, pois atraves do metodo grafico sugerido por CATTEL (1966), esses 
fatores explicam a maior variancia. 

Pode-se concluir, ainda, que o fator 1 e o mais importante para o estudo, 
pois e derivado do maior autovalor e possui uma explicagao de 33,05%, sendo que 
as variaveis, que mais contribuem neste, sao representadas pelos seguintes 
organismos: Colembolos, Hermpteros, Coleopteros, Crustaceos e Acaros, podendo 
este ser denominado de classe Insecta; o fator 2 e o fator 3, sao explicados por duas 
variaveis, apenas. O fator 2, pelas variaveis representadas pelos Anelideos e 
Moluscos, podendo este ser denominado de classe Crustacea, e o fator 3 pelas 
variaveis Isopteros, Diplopodes, podendo este ser denominado de filo Artropoda. Ja 
o fator 4 e explicado apenas por uma variavel, representada pelo organismo Aranae, 
podendo este ser denominado de Predador. 

Para que haja uma melhor visualizagao desses fatores, optou-se em utilizar 
os graficos de dispersao, ou os pianos fatoriais, que examinam a localizagao das 
variaveis num sistema de coordenadas criado pelos fatores. 

Na Figura 63, ao selecionar a opgao Plot of loadings, 2D, pode-se analisar 
todos os fatores encontrados, sendo que, apenas aqueles fatores que apresentarem 
variaveis explicativas, trarao a devida contribuigao para o estudo, de forma que se 
possa identificar quais as variaveis possuem uma maior representatividade nos 
pianos fatoriais. 

Os fatores a serem relacionados, neste primeiro piano, sao: Factor 1 com 
Factor 2, clica-se em Ok, conforme Figura 67. 

E importante salientar que a classe Insecta e composta de cinco variaveis 
predominantes que possuem uma maior contribuigao para este fator, conforme 
mostram os valores em, destaque na Figura 66. Sendo assim, esse e o fator mais 
importante para analise, pois ele deriva de urn autovalor de 4,30 que corresponda a 
uma variancia explicada de 33,05 que pode ser visualizado na Tabela 23. Logo, ao 
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fazer os pianos fatoriais, a classe Insecta sera mantida fixa no eixo do x, e os fatores 
do eixo y serao modificados a cada piano, para que se possa verificar a importancia 
de cada variavel na formagao de cada fator. 



Figura 67 - Caixa de selegao dos fatores, para fazer pianos fatoriais. 

Antes de interpretar a Figura 68, deve-se levar em consideragao que, se a 
variancia for nula, ou proxima de zero, significa todos os individuos estao proximos, 
ou em cima, da origem do piano principal da nuvem de pontos, e possuem baixa 
representatividade. Pode-se, entao, interpretar o piano principal da nuvem de pontos 
como sendo o piano que torna maxima a variancia do conjunto dos n pontos 
projetados sobre ele. 

A Figura 68 corresponde a relagao entre as variaveis da classe Insecta e da 
classe Crustacea, da AF. Analisando a Figura 68, observa-se que as variaveis 
formam grupos por similaridades de explicagao, ou seja, estao agrupadas por 
fatores. As variaveis que melhor representam a classe Insecta formam urn grupo 
distinto dos demais, e sao representadas pelos organismos: Colembolos, 
Flemlpteros, Coleopteros, Crustaceos e Acaros, estando localizadas distantes da 
origem, sendo estas que possuem uma maior representatividade em relagao a 
classe Insecta, pois se forem tragadas perpendiculares em relagao a esse fator, 
pode-se verificar que essas variaveis sao as que estao localizadas mais distante da 
origem. As variaveis que melhor representam a classe Crustacea, e formam outro 
grupo distinto, sao as seguintes: Anelideos, Moluscos e Chilopodas. O restante das 
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variaveis possuem baixa representatividade, por estarem localizadas proximas a 
origem do piano fatorial. 


Plano Fatorial 
Fator 1 x Fator 2 



Figura 68 - Grafico representando a relagao entre fatores (fator 1 e fator 2) e variaveis segundo factor 
loadings. 

Pode-se concluir ainda, na Figura 68, na qual fica evidente como as 
variaveis agrupam-se e como sao suas relagoes com os eixos, os factors loadings, 
referentes aos fatores 1 e 2. As variaveis que melhor representam a classe Insecta 
sao as que melhor a explicam, ou seja, as que estao mais distantes da origem, em 
relagao ao eixo do x, representadas pela elipse maior. 

As variaveis que melhor representam a classe Crustacea sao as que estao 
contidas na elipse menor, ou seja, as que estao mais distantes da origem, em 
relagao ao eixo y, sendo as que melhor explicam esse fator. 

As demais variaveis possuem baixa representatividade, devido ao fato de 
estarem proximas da origem, em relagao aos dois eixos. 

A analise que auxilia a interpretagao dos pianos fatoriais e analise de 
agrupamentos, pois esta serve para confirmar se as varaveis que estao num mesmo 
grupo sao as mesmas que explicam determinado fator. 
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A Figura 69, que representa os pianos fatoriais correspondentes a classe 
Insecta e a classe Crustacea da ACP, neste piano, foram tragadas perpendiculares, 
como pode-se observar em relagao a classe Insecta, que e representada no eixo x. 


Plano Fatorial 
Fator 1 x Fator 2 



Figura 69 - Grafico dos pianos fatoriais, que representam as perpendiculares em relagao ao fator 1. 

Observando a Figura 69, pode-se concluir que o grupo I e o mais 
representative, em relagao a classe Insecta, pois este e o que esta localizado na 
extremidade do eixo x e, portanto, o mais distante da origem do eixo cartesiano, 
logo, possui a maior influencia. Para se encontrar as distancias de cada variavel, 
traga-se urn segmento de reta perpendicular ao eixo x, que representa a classe 
Insecta. Apos realizada esta tarefa, verifica-se qual a variavel, ou o conjunto de 
variaveis, que esta localizado mais distante da origem, a partir da perpendicular. As 
variaveis que estiverem mais distantes possuirao maior influencia em relagao ao 
fator examinado. 

A Figura 70 representa os pianos fatoriais da relagao entre a classe Insecta 
e a classe Crustacea da AF, Nesses pianos, o segmento de reta sera tragado 
perpendicular ao eixo y, que representa a classe Crustacea. A analise e realizada de 
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forma analoga a classe Insecta, levando-se em consideragao, neste caso, a classe 
Crustacea. 


Plano Fatorial 
Fator 1 x Fator 2 



Figura 70 - Grafico dos pianos fatoriais, que representam as perpendiculares tragadas em relagao ao 
fator 2. 

Observando-se esse grafico, o grupo II, das variaveis que estao contidas na 
elipse menor, constata-se que sao as variaveis que possuem uma maior 
representatividade em relagao a classe Crustacea, pois estao localizadas distante da 
origem, sendo que as demais variaveis possuem baixa representatividade em 
relagao a este fator. 

A Figura 71 representa os pianos fatoriais, da relagao entre variaveis da 
classe Insecta com as variaveis da classe Crustacea da AF. Nestes pianos foram 
tragadas perpendiculares em relagao a bissetriz dos pianos, fazendo-se uma analise 
conjunta de duas classes. 

Apos, encontra-se o significado, isto e, atribui-se urn nome para cada fator e 
pode-se verificar como as variaveis estao influenciando, concomitantemente, estes 
fatores. Para tal, traga-se a bissetriz, que passa pelo primeiro e terceiro quadrantes 
do piano fatorial, e, novamente, traga-se segmentos de reta perpendiculares a 
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bissetriz. Novamente, as variaveis mais distantes da origem serao as mais 
importantes. 

Da Figura 71, pode-se concluir que as variaveis de maior expressao, em 
relagao a esses dois pianos, continuam sendo as que estao contidas nos circulos 
em vermelho e rosa, as quais possuem uma maior distancia em relagao a origem 
desses pianos, sendo que as variaveis que melhor representam a classe Insecta 
estao contidas no grupo I, e as que melhor representam a classe Crustacea estao 
contidas no grupo II. 

Nos outros pianos fatoriais, que correspondem a classe Insecta x filo 
Artropoda e a classe Insecta x Predadores, a analise e realizada de forma analoga a 
este exemplo. 


Plano Fatorial 
Fator 1 x Fator 2 



Figura 71 - Grafico dos pianos fatoriais, da relagao entre variaveis do fator 1 com 2 em relagao a 
bissetriz. 


Ao selecionar a opgao Loadings/ Plot of loadings, 3D na Figura 65, obtem-se 
a Figura 72, que mostra a localizagao das variaveis num espago tri-dimensional, 
oferecendo uma visualizagao das variaveis. 
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Plano Fatorial: Fator 1 x Fator 2 x Fator 3 



Figura 72 - Grafico do piano tri-dimensional, da ACP. 

A Figura 73 mostra o modulo principal do STATISTICA, para encontrar os 
pianos principals, que possibilitarao visualizar a nuvem de variaveis que melhor 
representa cada piano, bem como a nuvem de pontos que mostra a localizagao de 
cada objeto (estado) em relagao as variaveis nos pianos principals, para isso 
seleciona-se: Multivariate Exploratory Techniques - Principal Components & 
Classification Analysis : 




Basic Statistics/Tables 
1/ Multiple Regression 
j®j ANOVA 

Nonparametrics 
Distribution Fitting 


IX? Advanced Linear/Nonlinear Models ► 


y£| Multivariate Exploratory Techniques 

p Cluster Analysis 

jig Industrial Statistics & Six Sigma ► 

Factor Analysis 


<3? Principal Components & Classification Analysis 

Ts> Data-Mining ► 

^ Canonical Analysis 
[J Reliability/Item Analysis 
Classification Irees 
Correspondence Analysis 

Ull Statistics of Block Data ► 

•j§ STATISTICA Visual Basic 

Probability Calculator ► 

Multidimensional Scaling 
Discriminant Analysis 

IzH General Discriminant Analysis Models 



Figura 73 - Caixa de selegao da ACP. 


A Figura 74 mostra a caixa de selegao de variaveis e comandos para ACP. 
Clica-se em Variables, e o programa mostrara todas as variaveis. 
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©Principal Components and Classification Analysis: SPREADSH ? _ m 



Figura 74 - Caixa de selegao da ACP. 

Se o pesquisador quiser estudar todas as variaveis, basta seleciona-las e 
clicar em Ok. Se no estudo tiver algumas variaveis suplementares, isto e, que o 
pesquisador busque identificar seu comportamento, em relagao as outras variaveis, 
basta selecionar as variaveis que nao sao suplementares na primeira janela, que diz, 
logo abaixo, Variables for analysis, e na outra janela selecionar as variaveis 
suplementares, sendo que estas podem ser uma ou mais, na janela Supplementary 
variables e, a seguir, e so clicar em Ok. 

Na Figura 75, apresenta-se a totalidade de variaveis para analise. Neste 
caso, apos selecionadas todas as variaveis, clica-se em Ok. 


Select variables for analysis, supplementary, active case, and group 





1-COLEM 

ii -Ac 

11-ACAROS 


1-COLEM. 

11 -AC 

1-COLEM. 

11 -Ac 
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2-ISOP. 

12-AN 

2-ISOP. 

12-AN 
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Figura 75 - Caixa de selegao das variaveis para ACP. 


A Figura 76, na opgao Variables for analysis: mostra que todas as variaveis 
foram selecionadas, inclusive as suplementares, basta clicar em Ok. 
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® Principal Components and Classification Analysis: SPREADSH ? LJS' 


Quick | Advanced 


H 


! OKI 


] 


Variables: 


Variables for analysis: 1-13 

S upplementary variables: H 20 -T emp 

Variable with active cases: none 

Grouping variable (labeling): none 


Cancel 


J8 Options ▼ j 
|£? Open Data 


* 


MD deletion 

(* Casewise 

Mean 

substitution 


Figura 76 - Caixa de selegao da ACP. 


A Figura 77 mostra a caixa de selegao de variaveis e comandos para ACP. 
Seleciona-se Variables/Plot case factor coordinates, 2D, e clica-se em Ok, para fazer 
os pianos principals, com a nuvem de variaveis. 


© Principal Components and Classification Analysis Results: SPRE ? _ M 


No. of active vars: 13 
No. of active cases: 29 


No. of supplementary vars: 2 
No. of supplementary cases: 0 


Eigenvalues: 4,29683 2,35310 1,77643 1,23373 ,944747 


J&LiJ 


Number of factors : P3“! Quality of representation : 100,0 % 
Quick Variables Cases | Descriptives | 


lmnJ Factor coordinates of variables | 

US Factor & variable correlations 

|C_> 1 Plot var. factor coordinates, 2D 

ffl Communalities (Cosine 2 ] 


Options for plot of factor coord. 
W Vectors (points to origin) 

W Unit circle 
lV Variable names 
r Variable numbers 
C No Names/Numbers 


Contributions of variables 


Eigenvalues 


lv>l 


Screeplot 


Eigenvectors 


OK; 


Cancel 


13 Options^ 


Figura 77 - Caixa de selegao da ACP. 


A Figura 78 mostra os fatores a serem relacionados, neste primeiro piano 
principal, que sao: Factor 1 x Factor 2 e, em seguida, clica-se em Ok. 

E importante lembrar que os fatores de urn a quatro sao os que possuem as 
variaveis explicativas. Portanto, aqui tambem os fatores serao relacionados de forma 
analoga aos pianos fatoriais. 
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Select two factors for the plot 


?3B 


x-axis 


y-axis 

Factor 1 

A 

Factor 1 * 

Factor 2 


Factor 2 

Factor 3 


Factor 3 1 = 1 

Factor 4 


Factor 4 

Factor 5 


Factor 5 

Factor 6 

a 

Factor 6 

Factor 7 

Factor 7 v 


OK 


Cancel 


Select two factors for 
the 2D scatterplot 


Figura 78 - Caixa de selegao dos fatores. 


A interpretagao dos componentes principais e, sem duvida, um dos pontos 
mais delicados da analise. Aqui, dois aspectos devem ser explorados: o primeiro e a 
correlagao das variaveis originais com as componentes, que fornecerao a 
contribuigao de maior relevancia, conforme explicado no item 3.2 e mostrado na 
Figura 62. O outro aspecto e realizar a analise considerando os individuos que estao 
sendo estudados. 

A Figura 79 mostra o circulo de correlagao unitario, com a nuvem de 
variaveis. 


Projegao das variaveis referentes ao Fator 1 x Fator 2 



Figura 79 - Grafico da distribuigao da nuvem de variaveis, no circulo de correlagoes. 


Uma das utilizagoes do circulo unitario e realizando a sobreposigao deste 
sobre o primeiro piano fatorial, desta forma e possivel identificar visualmente que 
variaveis estao relacionadas com os casos em estudo. 
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Como pode-se observar, na Figura 79, algumas variaveis estao sobrepostas 
umas as outras. Isso mostra que essas possuem a mesma representatividade no 
grafico. Outro fato importante, e que algumas variaveis estao bem proximas ao 
circulo unitario. Isso mostra que estas possuem uma maior contribuigao, em relagao 
as variaveis que estao mais afastadas. 

Conclui-se, tambem, que as variaveis localizadas nos quadrantes II e III 
sofrem influencia da umidade, pelo fato da umidade estar localizada no mesmo 
quadrante que estas variaveis, mas nao sao influenciadas pela temperatura, que 
esta localizada no quadrante oposto, a essas. As variaveis localizadas no I e IV 
quadrante possuem influencia apenas da temperatura, por estarem localizadas 
nestes quadrantes. 

A Figura 80 mostra a caixa de selegao de variaveis e comandos para ACP. 
Seleciona-se Cases/Plot case factor coordinates, 2D, e clica-se em Ok, para fazer os 
pianos principals, com a nuvem de pontos dos individuos (as coletas). 


^Principal Components and Classification Analysis Results: Spre. ? — 


No. of active vars: 13 

No. of active cases: 29 


No. of supplementary vars: 2 

No. of supplementary cases: 0 


Eigenvalues: 4,29683 2,35310 1,77643 1,23373 ,944747 


% * 


Number of factors : [T3 ^ Quality of representation : 1 00,0 % 

Quick | Variables Cases Descriptives 


Factor coordinates of cases 


L--" 'l Plot case factor coordinates, 2D 


Factor scores 


Options for plot of factor coord. 
Case names 
r Case numbers 

No names/numbers 

r Groupina labels 


Contributions of cases 


Cosine 2 


Plot cases with 
sum of cosine 2 


>- | 5 ~ 1 


tqg Save case statistics 
♦ Factor coordinates 
Factor scores 


firud [OK; 


Cancel 


Factor score coefficients 


J3 Options 


Figura 80 - Caixa de selegao da ACP. 


A Figura 81 mostra os fatores a serem relacionados para a nuvem de 
pontos dos individuos. Neste caso, relaciona-se Factor 1 com Factor 2, e clica-se em 
Ok. 
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Figura 81 - Caixa de selegao dos fatores para ACP. 


A Figura 82 mostra o primeiro piano principal, com a nuvem de pontos dos 
individuos. 


Projegao dos individuos em relagao ao piano fatorial Fator 1 x Fator 2 



Figura 82 - Grafico da distribuigao da nuvem de pontos (os estados). 

Analisando-se o grafico da Figura 79, da distribuigao da nuvem de variaveis 
em relagao ao grafico da Figura 82, da distribuigao da nuvem de pontos, pode-se 
concluir que as variaveis Colembolos, Flemlpteros, Coleopteros, Crustaceos e 
Acaros sao as mais representativas. Isto significa que foram encontradas em maior 
abundancia no solo, em relagao a estes dois fatores, e a coleta, que mais contribui 
na formagao da combinagao linear da classe Insecta, e a primeira (Cl), pois esta 
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representando estas cinco variaveis. Pode-se concluir, ainda, que as coletas que 
possuem uma maior contribuigao, na formagao da combinagao linear da classe 
Crustacea, e a segunda e a decima terceira coleta (C2 e Cl 3), que representam as 
variaveis Anelideos, Moluscos, Chilopodas e Diplopodes. O restante dos organismos 
e coletas nao apresentam representatividade significativa, em relagao a estes dois 
fatores. 

Nos outros pianos principals, que correspondem ao fator 1 x fator 3 e fator 1 
x fator 4, a analise e realizada de forma analoga a esse exemplo. 

E importante salientar que a interpretagao da ACP consiste em definir o que 
representa cada eixo, em termos de fator, responsavel pela ordenagao das 
amostras, do assunto que esta sendo estudado. Conforme Valentin (2000), “a 
interpretagao de urn eixo deve ser baseada nas coordenadas das variaveis neste 
eixo, a partir das quais foi elaborada a matriz de correlagao que deu origem aos 
autovetores”. Ao realizar ACP, deve-se observaros seguintes principios: 

■ que uma proximidade maior, ou menor, entre dois pontos-variaveis, no piano, 
traduz uma maior, ou menor, correlagao entre essas variaveis, principalmente 
quando elas sao afastadas do centra do piano; 

■ a proximidade entre dois pontos-amostra (objeto) traduz uma certa similaridade 
entre essas duas amostras, em termos de variaveis. 

Comentarios desse capitulo 

Nesse capitulo, foi possivel, desenvolver dois exemplos, utilizando-se dados 
reais. O primeiro, aplicando-se a tecnica de AA, utilizou-se os dados referentes aos 
principals produtos que compoe a produgao nacional de graos, no periodo de 1995 a 
2002. O segundo exemplo aplicou-se a tecnica de ACP e AF, cujos dados eram 
referentes a 30 coletas da fauna edafica do solo, no periodo de junho de 2004 a 
janeiro de 2005. Encontra-se, tambem, descrito, neste capitulo 4, como realizar as 
interpretagoes pertinentes a cada etapa da analise. Consta, ainda, nesse, todas as 
etapas necessarias para que seja possivel desenvolver as tecnicas de analise de 
agrupamentos, analise de componentes principals e analise fatorial. 
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5 REALIZANDO PESQUISAS 


Neste capitulo serao apresentados quatro estudos de casos, para 
exemplificar o uso das tecnicas multivariadas. 

O primeiro artigo que versa sob o titulo: metodos multivariados: uma 
metodologia para avaliar a satisfagao dos clientes da RBS-TV na regiao noroeste do 
rs, trata de uma aplicagao sobre a satisfagao dos clientes. Este artigo foi 
apresentado no the 9 th World multi-conference on Systemics, Cybernetics and 
Informatics, 2005 - Orlando - USA. Aqui apresenta-se a versao em portugues para 
maior facilidade dos leitores. 

O segundo artigo que versa sob o titulo: Aplicagao da analise multivariada 
em dados de rendimentos de ensino, trata sobre a aplicagao, em dados dos colegios 
militares brasileiros com o objetivo de tragar o perfil dos alunos em relagao aos seus 
rendimentos. Este artigo foi apresentado no XXV Encontro Nacional de engenharia 
de Produgao e XI International Conference on Industrial Engineering and Operational 
Managment, 2005 - Porto Alegre - RS. 

O terceiro artigo que versa sob o titulo: Produgao agricola: uma sintese 
mediante tecnicas estatisticas, analisa a produgao nacional de graos, no periodo de 
1995 a 2002, com o objetivo de verificar como esta produgao se comportou neste 
periodo, bem como mostrar estatisticamente as diferengas significativas entre as 
regioes produtoras. Este artigo foi apresentado no XXXVII Simposio Brasileiro de 
Pesquisa Operacional PO e o Desenvolvimento Sustentavel, 2005 - Gramado - RS. 

O quarto artigo que versa sob o titulo: avaliagao da fauna edafica em campo 
nativo mediante tecnicas da analise multivariada, trata da fauna edafica do solo 
numa area de campo nativo e tern como objetivo verificar se a temperatura e a 
umidade influenciam na quantidade e diversidade de organismos existentes no 
mesmo. Este artigo foi apresentado no O 11° Simposio de Estatistica Aplicada a 
Experimentagao Agrondmica (SEAGRO) e a 50 a Reuniao Anual da Regiao Brasileira 
da Sociedade Internacional de Biometria (RBRAS), 2005 - Londrina - PR. 
Apresenta-se a formatagao dos artigos conforme solicitado, para a sua submissao 
aos referidos eventos. 
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ARTIGO 1 

METODOS MULTIVARIADOS: UMA MET ODOLOGIA PARA AVALIAR A 
SATISFAQAO DOS CLIENTES DA RBS-TV NA REGIAO NOROESTE DO RS 


Gilvete Silvania Wolff Lino. 

Adriano Mendon^a Souza. 

Resumo 

A busca pela qualidade dos servi$os oferecidos pelas empresas, vem crescendo 
gradativamente, a cada ano; uma vez que o cliente satisfeito com um service oferecido tem 
sido a principal meta das empresas que procuram manter-se competitivas no mercado. Esse 
trabalho procurou avaliar a satis facao dos clientes da RBS-TV, da regiao noroeste do estado 
do Rio Grande do Sul, apos o recebimento de um determinado servi^o. Para isso, procedeu-se 
a elaboraQao de um questionario com perguntas acerca da satisfa?ao do servi^o recebido. 
Inicialmente, partiu-se para a analise do questionario, onde recorreu-se aos metodos 
multivariados, dentre eles a Analise de Componentes Principais, Analise Fatorial e a Analise 
de Cluster, para identificar quais as variaveis de maior relevancia estatistica mostrado atraves 
dos pianos fatoriais apos a cxtracao das componentes principais. O numero de variaveis 
originais foi composto de 14 variaveis que, apos a aplica^ao dos metodos suplacitados 
estudou-se apenas 4 variaveis. Apos a aplicacao dos metodos multivariados pode-se concluir 
que os clientes da RBS-TV escolhem esse veiculo de comunicacao pelo retomo que possuem 
com a midia, a presteza do agente que os atende, por o anuncio publicado ter atendido suas 
necessidades e por ultimo as cond^oes de pagamento.Os resultados obtidos serao usados pela 
empresa para melhorar o atendimento e o desempenho frente aos seus clientes, trazendo, 
assim, um retorno financeiro em maiores proporcoes. 

Palavras chave: Qualidade em Servi^os, Analise de Componentes Principais, Analise 
Fatorial, Analise de Cluster. 


1. Introdu^ao 

A crescente importancia atribuida ao setor de servi^os tanto na economia brasileira 
quanto internacionalmente, vem levando diversas organizacocs empresariais a refletireni 
sobre os niveis adequados de excelencia na presta^ao e servi^os para os clientes. 

Hoje em dia, o mercado vem forcando as empresas em geral a buscarem um diferencial 
ao focalizarem os servi^os como recursos para a agrega?ao de valores aos produtos postos a 
disposi?ao dos consumidores, classificando-os sob modernos parametros de analise, no que 
tange aos desejos e as reais necessidades desses consumidores. 

Tem-se observado ainda, principalmente a partir das ultimas decadas do seculo XX, a 
existencia de maior concorrencia nos mercados cada vez mais globalizados, o que tem levado 
a uma grande exigencia por parte das empresas a medida que elas passaram a adotar 
estrategias focadas nos clientes. Tal movimento trouxe como conseqiiencia um aumento de 
estudos e pesquisas relacionados com o comportamento do consumidor, tal como sugerem 
Rossie e Fonseca (2000). 

Alem disso, o setor de scrvicos tem se caracterizado como aquele que mais emprega na 
economia nacional. Extemamente, esse setor encontra-se bastante divcrsificado, incluindo 
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uma elevada gama de atividades diferentes, que varia desde empreendimentos gigantescos, 
que operam em uma base global, ate pequenas empresas que atendem a uma unica cidade ou 
bairro. 

Apesar dos servicos se encontrarem presentes no cotidiano das pessoas e das 
organizacoes, foi somente a partir do advento da rcvolucao industrial que eles se tornaram 
mais complexos e diversificados. A partir disso, o surgimento das profundas mudancas na 
producao e nos setores financeiros, redes de transportes e de comunicacoes levaram as 
empresas a revisarem os seus metodos e tecnicas de gestao, de forma a permitir uma maior 
agilidade na tomada de decisoes e, consequentemente, ganhos de mercado. 

Na visao de Bateson e Hoffman (2001), o crescimento economico acabou estimulando o 
crescimento da industria de scrvicos, fazendo aumentar o nlvel de prosperidade que levaram, 
consequentemente, as pessoas flsicas e jurldicas a ter menos tempo, optando com isso pela 
troca de dinheiro por tempo, isto e, as novas tecnologias trouxeram mudancas significativas 
na natureza de diversos servicos ja existentes, bem como na criacao de outros. 

A nova postura tomada pelas organizacoes em funcao do novo cenario economico fruto 
do mundo globalizado, tern levado as empresas a se posicionar no mercado procurando 
atender as necessidades de um consumidor cada vez mais exigente. 

Tem-se verificado ainda que o aumento e a capacitacao das empresas concorrentes, em 
funcao de uma forte exigencia por parte dos clientes, vein fazendo com que a ampliacao do 
mercado de atuacao da empresa junto a clientela nao somente garanta um nivel de 
lucratividade consideravel, como tambem alavanque uma maior fidelizacao dos seus produtos 
ou servicos. 

No setor de servicos Boiton e Lemon (1999) enfatizaram que cabe a empresa prestadora 
da benfeitoria determinar a freqiiencia de seus contatos com os seus clientes, baseando-se em 
avaliacoes que fazem acerca de experiences com o servico que fora ofertado. Vale destacar 
que os niveis dessa procura podem exercer um consideravel impacto na lucratividade da 
organizacao no longo prazo. 

Nesses termos, a qualidade do setor de servicos de uma organizacao, mais do que um 
diferencial acaba representando uma condicao sine qua non de sobrevivencia no mercado, 
uma vez que a melhoria continua da tecnologia, dos processos intemos, das metas e dos 
valores das organizacoes leva a uma identificacao das necessidades e dos desejos dos 
consumidores visando fideliza-los a uma marca ou um servico prestado. 

Finalmente, este trabalho encontra-se estruturado em cinco secoes, a sabe: a segunda 
secao faz uma breve revisao bibliografica sobre a qualidade e satisfacao na prestacao de 
servicos aos consumidores. A terceira secao mostra os aspectos metodologicos. A quarta 
secao evidencia os resultados empiricos e a quinta secao traz as consideracoes finais e 
recomendacoes para trabalhos futuros. 


2. A Qualidade e a Satisfacao com a Prestacao de Servicos 

A satisfacao dos consumidores passou nas ultimas decadas a ser apontada como um dos 
pilares da area de marketing em servicos, de forma que vein levando diversas empresas a 
buscarem um diferencial a medida que procura atender as reais necessidades de clientes mais 
conscientes exigentes nesse mundo cada vez mais competitive. 

Na area de marketing, a satisfacao dos consumidores pode ser abordada dentro de um 
enfoque comportamental, cuja dimensao pode ser a economica, cognitiva e emocional 
[Chauvel (1999)]. E tambem notoria nas visoes de Fomell et al. (1996), Daker et al. (1998) e 
Gale (1992), que o papel da satisfacao de clientes seja um fator detenninante nao somente de 
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retomos crescentes, como tambem de lealdade por parte dos clientes atraves da geragao de 
valor para os mesmos. 

Para Anderson, Fomell e Lehmann (1994), a satisfagao do consumidor e afetada por tres 
antecedentes ou detenninantes, a saber: a qualidade percebida, o prego ou valor percebido e as 
expectativas. A qualidade percebida refere-se a atual avaliacao da performance da empresa, e 
tende a influenciar positivamente na satisfagao total do cliente em rcl actio ao fornecedor. 

Nesses termos, a qualidade percebida passa a ser um construto abstrato que procede, as 
vezes, do objetivo e do afetivo. Tal defmigao passa a ser contraria aquela de qualidade 
objetiva de um produto, que se pode medir com rcl actio a um certo numero de caracterlsticas 
observaveis, como o numero de defeitos, a durabilidade ou o prego [Crosby (1979) e Garvin 
(1983)]. 

A qualidade ainda pode ser definida de forma abrangente amplamente na visao de 
Zeithaml (1988) como superioridade ou excelencia. Por extensao, a qualidade percebida e 
vista como o julgamento do consumidor sobre a excelencia ou a superioridade global de um 
produto ou de um servigo. Essa qualidade percebida parece diferenciar-se, entao, da qualidade 
objetiva ou real. 

O segundo determinante da satisfagao do consumidor e o valor percebido ou o prego do 
bem ou servigo [Anderson, Fornell e Lehmann (1994); Fomell et al. (1996)]. A qualidade em 
relagao ao prego possui um impacto direto sobre a satisfagao do consumidor. Ainda podendo 
ser ressaltado o relacionamento existente entre a qualidade da oferta e o seu prego, bem como 
os efeitos que confundem tal relagao. 

Ja o terceiro determinante da satisfagao refere-se as expectativas criadas pelo 
consumidor, bem como o conhecimento acumulado sobre a qualidade das ofertas de um dado 
fornecedor. Busca-se avaliar se a qualidade atual tende a influenciar a satisfagao do 
consumidor, assim como, se as experiences passadas tambem sao responsaveis por essa 
influencia, representadas pelas expectativas. Soma-se a tais as previsdes em relagao a 
capacidade do fornecedor de manter a qualidade no futuro. 

Kotler (2000), mostra que os clientes de hoje sao mais dificeis de serem agradados. Eles 
sao mais inteligentes, mais conscientes em ralagao aos pregos praticados, mais exigentes, 
perdoam menos e sao abordados por mais concorrentes com ofertas similares ou mesmo 
melhores. 

Logo, a retengao de clientes encontra-se intrinsecamente ligado aos conceitos do 
comportamento do consumidor, no que tange a recompra e a atitude positiva em relagao aos 
produtos ou servigos ofertados pelas organizagoes, culminando com a fonna de 
relacionamento empresa-cliente denominada de lealdade. 

Spreng, Mackenzie e Olshavsky (1996), tambem enfatizam que os desejos dos 
consumidores devem ser incluidos como um determinante fundamental na satisfagao dos 
mesmos. Os resultados da satisfagao ou insatisfagao surgem quando se comparam as 
percepgoes de performances de um produto, tanto com as expectativas, como tambem, com os 
desejos dos individuos. Nesse prisma, a satisfagao advem nao somente das expectativas e dos 
desejos em relagao ao bem ou servigo, mas tambem, fruto das informagdes nas quais tais 
expectativas se baseiam. 

De acordo com Olivier (1980) os consumidores criam as expectativas em relagao a um 
determinado bem ou servigo antes de sua compra. As expectativas sao comparadas ao 
desempenho real assim que o consumidor compra ou usa o produto ou servigo. Logo, as 
expectativas podem ser confinnadas quando um produto tern o desempenho esperado. 
Todavia, tais expectativas podem nao ser confirmada quando o produto tern um desempenho 
abaixo do esperado, ou confinnadas, quando apresenta um desempenho superior ao esperado 
[Churchill e Surprenant (1982); Evrard (1993)]. 
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Considerando que a qualidade dos servigos prestados por diversas organizagdes passou a 
ser um fator competitive) relevante na conquista de novos mercado, percebe-se a existencia de 
uma vasta literatura sobre esse tema, de forma que fornece as empresas interessadas no tema, 
importantes beneficios estrategicos, tais como, a segmenlacao de mercados, retomos sobre 
investimentos, rcducao de custos e aumento da produtividade [Parasuraman et al. (1985)]. 

Gummesson (1998, p. 244) colabora com essa discussao mencionando que “a qualidade 
em services como uma das contribuicoes a cvolucao do paradigma do marketing tradicional”. 
Isso pode ser bem compreendido caso a qualidade seja considerada como uma resposta 
subjetiva do consumidor acerca do desempenho do prestador de services. Trata-se de um 
julgamento de natureza pessoal, cujo conceito e extremamente relativo, fonnado por cada 
cliente e, conseqiientemente, mais dificil de ser mensurado. 

Nao se podem esquecer ainda das visoes de Bateson e Hoffman (2001, p. 363) a respeito 
do que venha ser qualidade, isto e: 

“...uma maneira de obter sucesso entre servigos concorrentes. 
Principalmente quando varias empresas que fornecem os servigos 
quase identicos concorrem em uma area pequena, como acontece com 
os bancos, onde estabelecer a qualidade de servigo pode ser a unica 
maneira de se diferenciar ”. 

Nessa mesma linha de raciocinio Gronroos (1993) tambem a firm a que uma das formas 
de administrar a qualidade de um servigo prestado e considera-lo do ponto de vista do cliente. 
Neste caso, os consumidores escolhem os prestadores de servigos ao comparar as percepgoes 
que tern do service percebido com os servigos esperados, que e chamado de qualidade de 
servigo percebida. 

Eleuterio e Souza (2002), relatam que os programas de qualidade que nao levem em 
conta o significado de qualidade para que os clientes nao obter resultados satisfatorios. 
“somente quando o prestador de servigos compreender como os servigos serao avaliados pelos 
clientes e que sera possivel saber gerenciar essas avaliagoes e como influencia-las na diregao 
desejada”. 

Zeithaml, Parasuraman e Berry (1990), enfatizam que a chave para assegurar uma boa 
qualidade de servigos e obtida quando as percepgoes dos clientes excedem as suas 
expectativas. Embora tal raciocinio seja valido, nao basta apenas compreender a importancia 
de fomecer servigos com boa qualidade. E necessario haver um processo continuo de 
monitoragao das percepgoes dos clientes sobre a qualidade do servigo, identificando as causas 
das discrepancias encontradas e adotar mecanismos adequados para a melhoria dos servigos 
prestados. 

Finalmente, deve ser observado que existe uma gama de teorias que procuram explicar a 
satisfagao dos consumidores por um bem ou servigo, que em sua grande maioria, convergem 
para a opiniao de que, mesmo com nomenclatura diferentes, tais teorias concordam com o 
conceito de que o julgamento acontega por meio de padroes pre-determinados (expectativas) e 
a comparagao de tais expectativas com um desempenho do produto ou servigo, sendo que o 
desempenho e avaliado subjetivamente, pelo consumidor, tal como fora mencionado 
anteriormente, com base em suas experiences e cognigoes. 


3. Aspectos Metodologicos 


3.1. Caracteristica da Pesquisa e Composigao da Amostra 
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O universo desta pesquisa compreende as empresas de pequeno e medio porte 
localizadas na regiao noroeste do Estado do Rio Grande do Sul que tiveram algum tipo de 
servigo de midia prestado pela empresa RBS-TV naquela regiao geografica. A pesquisa 
realizada caracteriza-se como um estudo exploratorio, valendo-se de uma amostragem 
probabilistica, cuja estratificagao se deu em fungao do tamanho das cidades avaliadas. Os 
municipios pesquisados foram: Santa Rosa, Tres Passos, Tres de Maio, Horizontina, Santo 
Angelo e Sao Luiz Gonzaga, sendo que na cidade de Santa Rosa, encontra-se a sucursal da 
Regiao Noroeste do estado do Rio Grande do Sul enquanto que as demais cidades possuem 
micro-sucursais da RBS-TV. 

O dimensionamento do tamanho da amostra, depende de varios fatores qualitativos que 
devem ser levados em considcracao, entre eles a importancia da decisao, a natureza da 
pesquisa, o numero de variaveis, a natureza da analise e o tamanho da amostra utilizada em 
estudos similares. Neste estudo, dimensionou-se uma amostra utilizando um erro de 
cstimacao de 7% e os valores de p c q igual a 50% e um nivel de conlianca de 95%. A 
populagao em estudo compde-se de 700 empresas das quais, 135 compuseram a amostra. 

3.2. O Formulario de Coleta de Dados 

Na segunda fase desta pesquisa, que se refere a elaboragao do questionario, optou-se por 
utilizar a escala de Likert', exigindo dos entrevistados a indicagao de um grau de concordancia 
com afirmagdes relacionadas no questionario. Para fins de analise, a cada uma das afirmagdes 
foi atribuido um escore numerico de 1 a 5. Essa variedade de graus, do ponto de vista 
estatistico, apresenta maior confiabilidade para a analise dos dados, pois as escalas com cinco 
opgoes sao mais confiaveis que as de somente duas ( Checklist ). Alem disso, o uso da escala 
de Likert permite que se determine a porcentagem de respostas positivas ou negativas, para 
uma determinada questao. 


3.3. O Metodo de Analise dos Dados 

Uma vez depurados e validados os dados e as informagdes obtidas no campo foram 
analisadas, com vistas a solucionar a pesquisa proposta. Apos a aplicagao do questionario, 
procedeu-se a extragao das estatisticas univariadas e multivariadas, que permitiram a 
sumarizagao e a classificagao dos dados obtidos,segundo criterios que facilitaram e 
permitiram a interpretagao dos resultados, de acordo com os objetivos propostos. O processo 
de analise foi dividido em tres etapas, a saber: 


• Analise descritiva: onde os dados foram primeiramente sumarizada e depois auferida as 
estatisticas descritivas univariadas e bivariadas, visando conhecer melhor a 
caracteristica das unidades autostradas; 

• Analise dos Fatores (AF): onde os dados obtidos foram analisados de acordo com os 
fatores ambientais defmidos no escopo do trabalho. Para tanto, Ao aplicar-se a analise 
fatorial precisamos testar se os dados estao suficientemente ligados para se proceder a 
analise. Para tal utilizou-se o metodo de Kaiser-Meyer-Olkin Measure of Sampling 
Adequacy (KMO), que mede a adequaqao dos dados, onde valores iguais ou menores do 
que 0,5 indicam que a realizaqao da analise fatorial e insatisfatoria devido a correlaqao 
fraca entre as variaveis. 
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• Analise de Cluster: que visa classificar objetos ou casos em grupos relativamente 
homogeneos, chamados de conglomerados. 


3.3.1 Analise Fatorial (AF) 

Segundo Malhotra (2001) a Analise Fatorial deve seguir alguns passos para sua 
rcalizacao: 


• Formular o problema; 

• Construir a matriz de correlaqao; 


A Analise Fatorial {AF) teve inicio, no principio do seculo XX com Karl Pearson e 
Charles Spearman, que estudaram as medidas de inteligencia. Essa tecnica nao se difundiu 
com maior velocidade devido a dificuldade em proceder aos calculos, os quais foram 
facilitados com o advento do computador. Matematicamente a AF e semelhante a Analise de 
Regressao Multipla, pelo fato de cada variavel ser expressa como uma combinagao linear de 
fatores subjacentes (Malhotra, 2001). Em pesquisas de marketing, por exemplo, pode haver 
uma serie de variaveis, a maioria correlacionadas as quais necessitam serem reduzidas de tal 
forma que: 


• determinar os autovalores e autovetores; 

• rotar os fatores; 

• interpretar os fatores; 

• calcular os escores fatoriais e selecionar as variaveis substitutas; 

• determinar o ajuste do modelo. 


Embora existam diversos metodos para se encontrar os autovalores e autovetores, a 
Analise de Componentes Principais (A CP) e a que melhor desempenha este papel, sem que o 
pesquisador mantenha um profundo conhecimento, pois dessa forma sempre se tern a garantia 
de se obter fatores unicos e nao-correlacionados, sendo este, um passo previo para se 
determinar os pianos fatoriais [Johnson (1995)]. 

Cada componente principal explica uma proporgao da variabilidade total e essa 
proporgao pode ser calculada, mediante o quociente entre o valor original do autovalor e o 
trago da matriz de correlagao R. Esse quociente segundo a visao de Pla (1986), denomina-se 
proporcao de variabilidade, explicada pela k-esima componente e calcula-se pela relagao a 
seguir: 


Mk) 

trR 


= Variagao explicada 


( 1 ) 


A delinicao do numero de componentes a serem utilizados e feita por meio de dois 
criterios. O primeiro, denominado de metodo grafico, o qual, representa graficamente a 
porcentagem de variagao explicada pela componente nas ordenadas e os autovalores em 
ordem decrescente nas abscissas. Esse criterio, que considera as componentes anteriores ate o 
ponto de inflexao da curva, foi sugerido por Cattel (1996). 

Na etapa de analise dos resultados a partir da tecnica de Analise Fatorial, deve-se levar 
em conta a complexidade e a extensao desses resultados, pois se entendidos adequadamente 
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podem levar a uma intcrp retag ao satisfatoria. Seguem abaixo as estatisticas-chave associadas 
a AF, as quais sao explicadas no decorrer do trabalho: 


• Teste de esfericidade de Bartlett; 

• Matriz de correlagao; 

• Autovalor; 

• Cargas dos fatores; 

• Escores fatoriais; 

• Medida de adequacidade da amostra de Kaiser-Meyer-Olkin (KMO); 

• Percentagem de variancia; 

• Reslduos; 

• Metodo grafico. 


Ao aplicar-se a analise fatorial precisamos testar se os dados estao suficientemente 
ligados para se proceder a analise. Para tal utilizou-se o metodo de Kaiser-Meyer-Olkin 
Measure of Sampling Adequacy {KMO), que mede a adequagao dos dados, onde valores 
iguais ou menores do que 0,5 indicam que a realizagao da analise fatorial e insatisfatoria 
devido a correlagao fraca entre as variaveis. 


KMO= 

Onde: 


2 , 2 , 2 , ,2 

r, + r, + r, + ... + r„ 


( r f + r, + ... + f ) + (r 2 u + rj 2 + .. . + r 2 kn ) 


r t r 2 ,...r n = correlagao das variaveis 
rn, r ]2 ,...r kn = correlagdes parciais 


Os valores criticos para a interpretagao do teste KMO sao: 


( 2 ) 


• Em torno de 0,90: adequagao otima 

• Em torno de 0,80: adequagao boa 

• Em torno de 0, 70: adequagao razoavel 

• Em torno de 0,60: adequagao mediocre 

• Em torno de 0,50 ou menos: adequagao impropria. 


Verificou-se ainda as rclagocs de interdependence entre as variaveis, fomecendo 
subsidios para empresa analisar o comportamento dos clientes em relagao a satisfagao dos 
servigos, e possibilitando um melhor entendimento sobre os criterios que os clientes utilizam 
para escolher o tipo de midia e o horario de veiculagao das propagandas que trazem mais 
divulgagao e retorno financeiro. 

O KMO e um teste que examina o ajuste de dados, tomando todas as variaveis 
simultaneamente e prove uma informagao sintetica sobre os mesmos. Um outro teste que 
precede a Analise Fatorial com vistas a verificagao de suas premissas, e o Bartlett Test of 
Sphericity ( BTS ), que testa a hipotese de que a matriz de correlagao e uma matriz identidade 
(diagonal igual a 1 e todas as outras medidas igual a zero) ou seja, que nao ha correlagao entre 
as variaveis [Pereira (2001)]. 


3.3.2 Analise de Cluster 
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A analise de conglomerados, tambem chamada de analise de cluster e uma tecnica 
usada para classificar objetos ou casos em grupos relativamente homogeneos chamados 
conglomerados. Os objetos, em cada conglomerado, tendem a ser semelhante entre si, mas 
diferentes de objetos em outros conglomerados nao havendo qualquer informacao, a priori, 
sobre a compos^ao do grupo, ou conglomerado, para qualquer de seus objetos, sendo 
sugeridos pelos dados. 

Confonne a CNI (Confedera?ao Nacional da Industria do Brasil, 1988), cluster significa 
agrupamento, ou seja, visa agrupar variaveis com caracteristicas comuns, sem perder 
informacocs de todo o conjunto em estudo. A analise de cluster e amplamente utilizada nas 
diversas areas do conhecimento, por se tratar de uma medida continua e que possibilita a 
interpreta?ao individual de cada grupo e a rela?ao que este grupo possui com os demais. 

Os processos de aglomeraQao podem se hierarquicos ou nao-hierarquicos. Na 
aglomcracao hierarquica e estabelecida uma ordem, ou estrutura em forma de arvore, que 
produz seqiiencia de parti^oes em classes cada vez mais vastas. O que nao ocorre na 
aglomcracao nao-hierarquica, na qual se produz, diretamente, uma particao em um numero 
fixo de classes. 

No entanto, o metodo mais comum e o da classificaQao hierarquica, onde os objetos sao 
agrupados a scmclhanca de uma classifica 5 ao taxonomica e representada em um grafico com 
uma estrutura em arvore, denominada dendograma. Para proceder esta classificacao, faz-se 
necessario definir matematicamente o que venha ser caracterizado proximidade, ou seja, a 
distancia entre dois objetos, definindo-se a partir dai o criterio de agrupamento de duas 
classes. Entre as medidas mais usuais, para estabelecer o conceito de distancia entre dois 
objetos men baseada nos valores de i variaveis pode-se destacar as seguintes formas de 
mensura 5 ao: 

l a ) Coeficiente Correla^ao Linear de Pearson', 

2 a ) Distancia Euclidiana; 

3 a ) Distancia de Manhattan', 

4 a ) Distancia de Mahalanobis; 

5 a ) Distancia de Chebychev. 

Confonne salienta Pereira (2001), a analise de cluster pode ser sintetizada baseando-se 
nos seguintes procedimentos: 

a) Calculo das distancias euclidianas entre os objetos estudados no espaco 
multiplano de todas as variaveis consideradas. Logo, a distancia euclidiana pode 

ser calculada usando-se a expressao: D = x 2 - x x ) 2 + ( y 2 - y x ) 2 , onde os pares 

(xi,yi) e (x 2 ,yo) sao as coordenadas de pontos quaisquer no piano; 

b) Seqiiencia de agrupamento por proximidade geometrica; 

c) Reconhecimento dos passos de agrupamento para idcnlilicacao coerente de 
grupos dentro do universo de objetos estudados; 

d) Realizar as analises atraves de um pacote estatistico. 


4. Resultados Empiricos 

Antes de se verificar os resultados, segue abaixo o questionario utilizado, onde cada 
questao encontra-se resumida em uma palavra, para melhor interpretacao das variaveis em 
estudo. 

a) Questao 1 : A RBSTV Santa Rosa como opgao de midia - “opgao ”; 
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b) Questao 2: Quanto ao retomo que consegue investindo em publicidade na RBS-TV Santa 
Rosa - “retomo 

c) Questao 3: Quanto as altemativas de anuncios - “anuncio”', 

d) Questao 4: O anuncio proposto pela agencia atendeu as suas necessidades - 
“necessidade 

e) Questao 5: Os horarios de midia oferecidos contemplaram o seu publico alvo - 
“horario 

f) Questao 6: Quanto ao atendimento por parte do agente - “atendimento 

g) Questao 7: Quando se dirige a empresa recebe resposta de todas as solicitaQoes, 
reclamacoes e/ou sugestoes - “solicitagdes”; 

h) Questao 8: Quando agendo um horario de reuniao, o agente esta disponivel para a reuniao 
num horario que me era conveniente - “disponibilidade 

i) Questao 9: Presteza do agente quando chega na reuniao presteza 

j) Questao 10: Pontualidade do horario de inicio da reuniao - “pontualidade”; 

k) Questao 1 1 : Quanto ao atendimento pos-venda - “pos-venda 

l) Questao 12: Tabela de precos da RBS TV Santa Rosa - “prego”; 

m) Questao 13 Condicao de pagamento - “condigao”; 

n) Questao 14: Quanto a satis facao em continuar, ou voltar a anunciar, na RBS TV Santa 
Rosa - “continuar 

Procedeu-se, inicialmente, com a determ inacao das estatisticas descritivas das variaveis 

estudadas, antes da aplica?ao da tecnica de analise multivariada, confonne Tabela 1. 

TABELA 1 - Estatisticas descritivas das variaveis analisadas por meio de uma escala de 


Likert. 


Variaveis 

N 

Media 

Desvio 

Padrao 

Valor 

Minimo 

Valor 

Maximo 

OpQao 

155 

4,000000 

0,693195 

2 

5 

Retorno 

155 

3,696774 

0,824733 

1 

5 

Anuncio 

155 

3,774194 

0,810230 

1 

5 

Necessidade 

155 

3.812903 

0,745437 

2 

5 

Horario 

155 

3,890323 

0,743524 

1 

5 

Atendimento 

155 

4,425806 

0,654142 

2 

5 

Solicita?ao 

155 

4,051613 

0,700589 

1 

5 

Disponibilidade 

155 

4,167742 

0,611782 

1 

5 

Presteza 

155 

4,238710 

0,510715 

3 

5 

Pontualidade 

155 

4,193548 

0,645632 

1 

5 

Pos-Venda 

155 

3,832258 

0,903236 

1 

5 

PreQO 

155 

2,980645 

1,053571 

1 

5 

Condi 9 §o 

155 

3,722581 

0,793934 

1 

5 

Continuar 

155 

3,961290 

0,710623 

1 

5 


Com rela?ao a Tabela 1, pode-se verificar que as medias das variaveis analisadas 
encontram-se em to mo de quatro, ou seja, havendo um predommio do nivel satisfatorio, 
ficando apenas a variavel preco num nivel insatisfatorio. 

Pode-se verificar, atraves do coeficiente de varia^ao de Pearson, que a media dessas 
variaveis e signilicativa estatisticamente, em torno de 22%, com cxcecao da variavel preco, 
onde o coeficiente de varia^ao esta em tomo de 33%, evidenciando que o pre?o e a variavel 
que revela maior dispersao dentre a opiniao dos entrevistados. A media de respostas da 
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variavel prcco, foi igual 2,98, o que mostra que os valores representados pela op 9 ao muito 
insatisfeito e insatisfeito, influenciaram a media para baixo. 

Por outro lado o desvio-padrao das variaveis e considerado baixo, nao ocorrendo uma 
varia 9 ao elevada entre as respostas obtidas. 

Como analise preliminar, a AF utilizara o procedimento de analise de cluster, pois, por 
meio desta, sera possivel identificar quais sao as variaveis que pertencem a um mesmo grupo, 
isto e, possibilitando identificar quais variaveis o cliente identifica como tendo as mesmas 
caracteristicas para ele, colaborando dessa forma, com a empresa em possiveis formula 9 ao de 
estrategias de vendas dos seus serv^os. 

Na Figura 1, mostra-se o comportamento do dendograma com todas as variaveis, no 
qual pode-se identificar a forma 9 ao de tres clusters, obtidos por meio de um corte transversal 
feito na maior distancia entre os clusters, ou a criterio do pesquisador. O primeiro cluster e 
formado pela variavel preqo, o segundo pelas variaveis solic, pontu, prest, dispon e atend, e o 
ultimo cluster formado pelas variaveis pos-ven, condi, necess, anunc, hora, retor, cont e opg. 



FIGURA 1 - Dendograma envolvendo todas as variaveis da 2 a parte do questionario. 

Atraves da analise do dendograma, optou-se em retirar algumas variaveis que possuem 
a mesma representa 9 ao dentro do cluster. No primeiro cluster, como aparece somente a 
variavel pre 90 , nao houve altera 9 §o. O segundo cluster esta relacionado com o atendimento 
por parte do agente, portanto, retirou-se a variavel pont, e no terceiro cluster retirou-se as 
variaveis anunc e opg, tendo-se um novo dendograma, no qual pode-se verificar a forma 9 ao 
de tres novos clusters, conforme Figura 2. 
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FIGURA 2 - Dendograma apos a retirada de variaveis que apresentam o mesmo grau de 
relacionamento. 

Permanecendo novamente a variavel preqo no primeiro cluster, retirou-se do segundo 
e do terceiro cluster respectivamente, as variaveis dispon e retor, formando um novo 
dendograma, no qual verifica-se a formacao de ires novos clusters, conforme Figura 3. 



FIGURA 3 - Dendograma apos a retirada de variaveis que apresentam o mesmo grau de 
relacionamento. 

Uma vez que dentro do segundo e do terceiro cluster ainda havia variaveis com mesmo 
perfd, retirou-se, novamente, as variaveis atend e horn, respectivamente, formando-se um 
novo dendograma, o qual segue apresentado na Figura 4. 
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FIGURA 4 - Dendograma apos a retirada de variaveis que apresentam o mesmo grau de 
relacionamento. 

Por meio do dendograma, pode-se verificar a formacao de dois clusters, os quais 
possuem as variaveis de maior relevancia dentro do conjunto original das variaveis 
pesquisadas . 

Identificadas as variaveis como pertencentes ao mesmo cluster e permanecendo na 
analise as variaveis consideradas mais relevantes sob a otica da empresa e do pesquisador, 
procedeu-se a analise fatorial dessas variaveis, visando comparar como se comporta o 
conjunto de dados quando se utiliza todo o conjunto de dados, bem como o conjunto de dados 
que fora reduzido atraves da tecnica de analise de cluster. 

Caso o resultado do conjunto de dados reduzidos seja satisfatorio, a empresa podera 
utilizar essas sete variaveis para pesquisas posteriores, as quais poderao ser feitas ate mesmo, 
via telefone, reduzindo, com isso, o tempo de cxccuqao das pesquisas, os custos e servirao 
ainda para monitorar os scrvicos pos-venda da empresa. 

Para se proceder a AF, inicialmente, mediu-se a adequaqao das variaveis envolvidas para 
verificar a possibilidade da execuqao da analise, por meio do teste KMO, o qual fomeceu um 
valor de 0,843 e o Bartlett Test com valor de 860,836 com 91 graus de liberdade e nivel de 
significancia de p = 0,000. Analisando-se estes valores demonstra-se que a AF pode ser 
conduzida, obtendo um grau de adequaqao proximo de otimo, confonne a classificaqao do 
KMO. 

Aproximadamente 66% da variabilidade dos dados e explicado por quatro fatores 
principais, isso significa que de quatorze variaveis originais com 155 observaqdes, passou-se 
a utilizar quatro fatores, que representam o conjunto original, com isso, houve uma reduqao de 
dimensionalidade com perda de explicaqao de 34%, tal como pode ser visto na Tabela 2. 
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TABELA 2: Autovalores e Percentual de Variancia Explicada 


Fatores 

Autovalores 

Variancia 
explicada (%) 

Autovalores 

acumulados 

Var. Explicada 
acumulada (%) 

1 

5,080402 

36,28859 

5,08040 

36,28859 

2 

2,014212 

14,38723 

7,09461 

50,6758 

3 

1,124493 

8,03209 

8,21911 

58,7079 

4 

1,012130 

7,22950 

9,23124 

65,9374 

5 

0,842840 

6,02028 

10,07408 

71,9577 

6 

0,689221 

4,92301 

10,76330 

76,8807 

7 

0,654506 

4,67505 

11,41780 

81,5557 

8 

0,518466 

3,70333 

11,93627 

85,2591 

9 

0,454574 

3,24696 

12,39084 

88,5060 

10 

0,419413 

2,99581 

12,81026 

91,5018 

11 

0,377150 

2,69393 

13,18741 

94,1958 

12 

0,333499 

2,38214 

13. ,2091 

96,5779 

13 

0,286643 

2,04745 

13,80755 

98,6254 

14 

0,192451 

1,37465 

14,00000 

100,0000 


De acordo com a expressao denotada por (1), o percentual de variancia explicada pelo 
primeiro autovalor e (5,080402/14) • 100 = 36,28859% o autovalor foi dividido por 14, pois 
este numero corresponde ao traqo da matriz de correlaqao, onde a diagonal principal e 
formada por valores iguais a 1. Apos a extraqao dos autovalores e percentual da variancia 
explicada, e necessario decidir-se pelo numero de fatores a serem retirados para analise. Para 
isso, utiliza-se o metodo grafico sugerido por Cattel (1996), tal como fora mencionado 
anterionnente. 

Atraves do exame do grafico dos autovalores disposto na figura 1, observou-se que uma 
queda menos acentuada que ocorreu entre o quarto e o quinto fator e analisando-se os 
autovalores superiores a 1, observa-se que pode-se considerar ate o quarto fator. 



Numero de autovalores 

Figura 5: Numero de Autovalores e seus Respectivos Valores. 

Visando encontrar os pianos fatoriais realizou-se uma rotacao varimax, onde as cargas 
fatoriais mais elevadas sao as responsaveis pelas denominacocs dos fatores e sao 
estatisticamente significativas, conforme a Tabela 3. 
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T ABEL A 3 - Cargas fatoriais na composigao dos fatores apos rotagao Varimax. 



Fator 1 

Fator 2 

Fator 3 

Fator 4 

Op? 

0,221531 

0,076034 

0,076784 

0,088129 

Retor 

0,908799 

0,027101 

0,176180 

0,101774 

An unc 

0,069512 

0,068193 

0,257641 

0,139739 

Necess 

0,169031 

0,043602 

0,921555 

0,075349 

Hora 

0,151071 

0,104508 

0,120350 

0,085737 

Atend 

0,059963 

0,174678 

0,054225 

0,107361 

Solic 

0,051392 

0,181868 

0,009308 

0,101522 

Dispon 

0,061755 

0,338567 

0,002407 

0,023228 

Prest 

0,032148 

0,899164 

0,048690 

0,021091 

Pontu 

-0,003214 

0,500990 

0,024570 

0,027252 

Pos-Ven 

0,087342 

0,044603 

0,070342 

0,059976 

Prep 

0,098312 

0,047109 

0,104243 

0,268289 

Condi 

0,096515 

0,020086 

0,074624 

0,927210 

Cont 

0,227100 

0,124524 

0,131118 

0,196862 


Analisando-se a Tabela 3, pode-se avaliar as quatro componentes principais: 
rentabilidade, presteza, necessidade e condigdes, nas quais serao tragados os pianos fatoriais, 
para uma melhor interpretagao. Vale destacar que a variabilidade do sistema nao e alterada 
quando se realiza uma rotagao deste tipo, apenas as coordenas dos eixos sao rotacionadas e, 
desta forma, a inercia do sistema fica inalterada. Sendo assim, as analises realizadas, 
anteriormente, continuam valendo, mas, agora, com uma nova assoc iacao entre variaveis 
originais e os fatores. 

Uma vez que fora selecionado o numero de fatores a ser trabalhado a analise, e possivel, 
entao, representar graficamcntc tais fatores atraves das Figuras 6, 7 e 8. 

A seguir, tracam-sc os pianos fatoriais entre os fatores. Na Figura 6 encontra-se o fator 
1 versus o fator 2. 



- 0,2 0,0 0,2 0,4 0,6 0,8 1,0 


Fator 1 

Figura 6: Reprcscntacao do Fator 1 versus o Fator 2 

Atraves dos pianos fatoriais, verifica-se o comportamento das variaveis mais 
representativas. No eixo das abscissas, verifica-se a variavel retor, a qual foi perguntado qual 
o retomo que se consegue ao se investir em publicidade, na RBS-TV, obtendo-se media de 
resposta 3,696774, e um valor de fator loading de 0,908799. O eixo das ordenadas e 
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representado pela variavel prest a qual foi perguntado sobre a presteza do agente quando 
cheguei na reuniao, com media de resposta igual a 4,238710, e um fator loading de 
0,899164. Sendo essas variaveis de maior evidencia na analise. 

As variaveis, que estao dentro da elipse, sao as que possuem pouca expressao na 
composi 9 ao do fator, ou seja, nao sao significativas ao nivel de 7%. Logo, o cliente, ao 
veicular sua empresa, leva em consideratjao o retorno que ira obter com a midia, alem da e a 
presteza do agente no momenta da negociacao. 



- 0,2 0,0 0,2 0,4 0,6 0,8 1,0 

Fator 1 

Figura 7: Reprcscntacao do Fator 1 versus o Fator 3 

No piano fatorial disposto na Figura 7 verifica-se que, no eixo das abscissas, permanece 
a variavel retor que e a variavel mais representativa, e no eixo das ordenadas e a necess, 
obtendo-se media de resposta de 3,812903 e factor loading igual a 0,921555. As outras 
variaveis encontram-se bastante proximas da origem e, portanto, nao sao significativas. 

Analisando-se as Figuras 7 e 8, verifica-se que a variavel retorno e a mais 
representativa, ou seja, o cliente ao veicular um anuncio na RBS-TV, leva em considera?ao 
principalmente o retorno que tera com a midia. 



- 0,2 0,0 0,2 0,4 0,6 0,8 1,0 

Fator 1 

FIGURA 8 - Rcprcscntagao do fator 1 versus o fator 4 
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Neste piano fatorial a variavel condi representa a pergunta sobre as condicoes de 
pagamento oferecida pela empresa sendo a mais representativa no eixo das ordenadas, e 
possuindo uma media de resposta 3.722581 e factor loading de 0,927210. 

Finalmente, e facil ressaltar ainda que a conliabilidade interna dos primeiros fatores que 
foram extraldos e satisfatoria, a qual e corroborada atraves da estatlstica do Alfa de Cronbach 
que fomeceu um valor de 0,8564. Por esse motivo, pode-se afinnar que os primeiros fatores 
estao coerentes com as variaveis que o compoem. 


5. Consideragoes Finais 

As ferramentas estatlsticas, em nlvel de analise exploratoria de dados, sempre se 
mostraram importantes na tomada de decisdes. Neste estudo pode-se verificar como os 
clientes da RBS TV conseguem ver a empresa e os resultados que eles esperam, apos o 
anuncio de sua empresa neste velculo de comunicagao. Apos a realizagao da pesquisa de 
campo e as analises necessarias, chegou-se aos seguintes resultados finais: 

Com os dados obtidos do questionario, procedeu-se, primeiramente, ao uso da 
estatlstica descritiva, a qual fomeceu, por meio da media, o grau de satis facao por parte dos 
clientes, predominando-se o grau satisfeito (4 na escala de Likert) na maioria das questoes, 
com cxcecao da variavel preco, que fomeceu grau insatisfeito (2 na escala de likert). 

Porem, existe uma quantidade significativa de clientes que estao indecisos. Baseando-se 
no que fora mencionado anterionnente, cabe a RBS-TV verificar o porque desse quadro e 
propor alternativas diferenciadas a estes clientes para que eles venham a se tornar clientes 
com nlveis de aceitagao satisfatorio, perante aos servigos prestados. 

Por meio dos metodos estatlsticos multivariados, procedeu-se a cxtracao das 
componentes principals a qual proporcionou uma reducao no numero de variaveis originals e 
pode-se afinnar que os clientes da RBS TV desse municipio escolhem esse veiculo de 
comunicagao pela seguinte ordem de importancia: 

• retomo que conseguem com a midia; 

• presteza do agente no momento da venda da midia; 

• condigoes de pagamento; 

• alternativas de anuncio. 

Nesse prisma, os clientes da RBS-TV, primam pelo retomo que conseguem investindo 
em publicidade na RBS-TV, pela presteza do agente no momento da venda da publicidade, 
pelas condicoes de pagamento e pelas alternativas de anuncio para a propaganda de sua 
empresa. Em suma a RBS-TV deve manter maior atencao quanto ao retorno que o anunciante 
tern com a midia e propor mais alternativas de anuncio. 

Sugere-se entao, que a empresa mantenha a politica que vein sendo adotada, mas 
tentando manter os clientes ja cadastrados que anunciam neste veiculo de comunicagao e que 
desenvolvam uma campanha para a obtcncao de novos clientes para a emissora. 

Antecedente a tecnica de AF, procedeu-se com uma analise de cluster para identificar as 
variaveis que pertencem ao mesmo cluster, possibilitando, com isso, verificar quais variaveis 
os clientes identificam com o mesmo efeito. 

Como analise final, apos a retirada de variaveis com o mesmo significado dentro de 
cada cluster, obteve-se a formacao de dois clusters, onde o primeiro encontra-se sozinho a 
variavel prego, e no segundo as variaveis “pos-vend”, “cont”, “prest”, “solic”, “cond” e 
“necess 

Por fim, a tecnica de analise fatorial se mostrou eficiente na identificagao das variaveis 
que apresentavam uma maior contribuigao para a fonnagao do fator, sendo desta maneira 
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possivel identificar as variaveis que devam receber uma maior aten?ao pela agencia de 
telecomunica 5 ao e que tambem possibilitou conhecer o que realmente os empresarios que 
utilizam os services da RBS-TV, desejam no momento de contratar os services da emissora 
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ARTIGO 2 

APLICAQAO DA ANALISE MULTIVARIADA EM DADOS DE RENDIMENTOS DE 

ENSINO 


Fernando Monteiro Silva 
Adriano Mendon^a Souza 


Resumo 

O objetivo desta pesquisa e determinar o perfd dos alunos e dos Colegios Militares, 
apresentam-se tres analises aplicando-se tecnicas estatisticas multivariadas em dados de 
rendimentos de ensino. Realiza-se, primeiramente, uma analise descritiva dos dados de quatro 
Colegios Militares, fazendo-se um cruzamento de variaveis de rendimento escolar. A seguir, 
parte-se para a analise multivariada de alguns indicadores de ensino, utilizando-se analise de 
cluster, analise de componentes principals, analise fatorial e analise discriminante. Na posse 
de uma enornie quantidade de informacoes a questao que surge e naturalmente como 
interpreta-las e, obedecendo a natureza multivariada, como extrair informacao relevante. Um 
desafio enfrentado hoje pelo ensino e a previsao da trajetoria dos alunos. Quais precisarao de 
assistencia adicional para aprovacao? Como aumentar a aprovacao sem diminuir o contcudo 
programatico? Quais alunos tern maior probabilidade de ingressar em agremiacoes e 
atividades extracurriculares? O principal motivo que tern levado os administradores a investir 
na busca de conhecimento tern sido a obtengao de uma melhor visao sobre a extensao da base 
de dados e a revela^ao de relates implicitas de padroes entre os dados que nem sempre sao 
visiveis atraves da simples observa^ao. 

Palavras-chave: Ensino, Militar, Multivariada, Mineragao de dados 

1. Introdu^ao 

A falta de uma ferramenta para dcmonstracao do desempenho comparativo entre 
diferentes escolas e a necessidade de uma melhor quantificacao do evento avaliativo, que 
nonnalizam e conferem um carater objetivo ao fator desempenho escolar para a tomada de 
decisao dos administradores do ensino, e o que determina a elaboracao deste estudo. 

Esta pesquisa constitui-se de um conjunto de tecnicas multivariadas aplicadas em 
dados de quatro Colegios Militares que sao: Colegio Militar do Rio de Janeiro (CMRJ), 
Colegio Militar de Santa Maria (CMSM), Colegio Militar de Curitiba (CMC) e Colegio 
Militar de Belo Horizonte (CMBH). 

Estes Colegios utilizam o Sistema de Gestao Escolar (SGE), programa de computador 
desenvolvido pelo Departamento de Ensino e Pesquisa, o qual objetiva atender as 
necessidades da area de ensino e militar. As bases de dados ( Oracle e PostgreSQL) possuem a 
mesma estrutura (esquema), o que facilitou a modelagem dos projetos definidos neste 
trabalho. 

Utilizam-se dados da area de ensino como graus, rendimentos, medias finais e dados 
de cadastro. 

Assim, busca-se aumentar a competencia e a criatividade nas instituicoes publicas, 
visando a organiza^ao e gestao de sistemas de qualidade, atraves do uso de metodologia 
eficaz para mostrar o desempenho comparativo entre as escolas e entre os proprios alunos. 
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2. A qualidade no ensino militar 

Um desafio enfrentado hoje pelo ensino e a previsao da trajetoria dos alunos. Quais 
precisarao de assistencia adicional para aprova?ao? Como aumentar a aprova^ao sem diminuir 
o conteudo programatico? Quais alunos tem maior probabilidade de ingressar em agrcmiacoes 
e atividades extracurriculares? 

Melhorar a gestao do ensino significa qualificar o seu produto. E necessario mensurar 
estatisticamente as multiplas variaveis que representam os fatores de qualidade de ensino e 
representa-las nurna dimensao compreensivel para o administrador. 

Nota-se claramente a excelencia no controle de informacoes nos processos 
administrativos das unidades militares, mais ainda, nas instituicoes educacionais, onde o 
interesse e a prepara^ao e a assistencia dos futuros cidadaos. 

Alem deste notado interesse, existe uma variedade de minuciosos processos que, 
juntos, mantem a excelencia no ensino nacional. Processos esses controlados com rigor, como 
o Processo de Sele^ao de Professores, Processo de Elabora^ao de Provas, Processo Ensino- 
Aprendizagem, Processo de Controle da Disciplina, Processo de Aquisi^ao de Materials, 
todos monitorados por quadros e mapas sumarizados que mostram as principals informacoes 
para auxilio na tomada de decisoes. 


3. Analise multivariada e exploracao de dados 

Segundo Ferraudo (2005), atraves da tecnologia dos computadores, a quantidade de 
informacao que se pode tratar e annazenar e muito grande, complexa e variada. Na posse de 
uma enorme quantidade de informacoes, a questao que surge e naturalmente como interpreta- 
las e, obedecendo a natureza multivariada, como extrair informacao relevante. 

As ferramentas de exploracao de dados combinam funcoes de estatistica, ciencias da 
computacao e recursos de inteligencia artificial. A escolha da combinacao de tecnicas, para 
serem aplicadas numa particular situacao, depende da natureza das tarefas de pesquisa e da 
natureza dos dados avaliados. ClassificaQao, estima?ao, predi?ao, agrupamento por afinidade, 
clusteriza5ao e descricao sao algumas das tarefas que caracterizam uma exploracao de dados. 
Segundo Louzada Neto (2000), data mining parece nao ser novo para muitos estatisticos e 
econometristas, e tem sido utilizado para descrever o processo de pesquisa de conjunto de 
dados, na esperanca de identificar comportamentos ou caracteristicas comuns. 

Com o objetivo de conhecer o comportamento das variaveis, desenvolve-se um estudo de 
carater descritivo, seguido da aplicacao de analises multivariadas. 

4. Analise descritiva 

Para tratar o perfil dos alunos e dos Colegios em estudo, inicialmente aplica-se uma analise 
descritiva, na qual a popula?ao em estudo e composta por 3360 alunos dos quatro Colegios 
Militares. Nesta analise, procura-se relacionar o rendimento com a origem do aluno, onde o 
rendimento e representado pela variavel Media Geral da Serie (MGS). 

A Figura 1, representando todos os Colegios Militares, apresenta uma concentracao maior de 
alunos concursados com rendimento bom e muito bom, enquanto os alunos amparados 
concentram-se no rendimento bom. Ainda se nota que o rendimento abaixo da media cinco, 
ou seja, com mcncao insuficiente, encontra-se apenas nos alunos amparados. 
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Figura 1 - Grafico de barras das origens traqadas em relaqao ao rendimento 

Nota-se uma baixa proporgao de alunos com mengao Insuficiente (I) em relagao as 
mengdes Muito Bom (MB) e Bom (B). Da mesma forma, o CMSM, CMC e CMBH 
apresentam comportamento semelhante ao modelo. Contudo, na Figura 2, que representa o 
CMRJ, nota-se uma maior proporgao de alunos com mengao insuficiente na classe dos 
amparados. Isso comprova um maior numero de alunos com rendimento baixo nos 
amparados, principalmente no CMRJ. 



Amparado Concursado 

Mengao 

Figura 2 - Grafico de barras das origens do CMRJ tra 9 ados em relagao ao rendimento. 

Dessa forma, prossegue-se o estudo com a identificagao da relagao entre outras variaveis, 
como o comportamento dos alunos e seu rendimento nas disciplinas. 

4. Analise multivariada 

Para esta analise, utilizam-se os dados de comportamento do CMSM e CMC, 
armazenados no SGE, porque apenas estes utilizam o modulo de controle de comportamento. 
Aqui, procura-se identificar a relagao entre o grau de comportamento e o rendimento escolar, 
considerando-se as disciplinas da 3 a serie do Ensino Medio. 

De acordo com a matriz de correlagao, apresentada na Tabela 1, que mostra o inter- 
relacionamento das variaveis, verifica-se uma baixa correlagao das disciplinas com o grau de 
comportamento. 
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Variaveis 

GrauComp Bio 

EF 

Fis 

Geo 

Hist 

FEM 

Fit 

Port 

Mat 

Qui 

GrauComp 

i 1,000 











Bio 

0,146 

1,000 










EF 

0,221 

0,137 

1,000 









Fis 

0,231 

0,671 

0,255 

1,000 








Geo 

0,170 

0,608 

0,236 

0,667 

1,000 







Hist 

0,158 

0,420 

0,295 

0,569 

0,623 

1,000 






FEM 

0,128 

0,541 

0,093 

0,566 

0,540 

0,528 

1,000 





Fit 

0,214 

0,621 

0,163 

0,653 

0,694 

0,702 

0,615 

1,000 




Port 

0,217 

0,759 

0,108 

0,686 

0,594 

0,415 

0,570 

0,685 

1,000 



Mat 

0,273 

0,692 

0,179 

0,742 

0,558 

0,415 

0,515 

0,542 

0,706 

1,000 


Qui 

0,249 

0,682 

0,211 

0,788 

0,641 

0,544 

0,542 

0,611 

0,658 

0,773 

1,000 


Tabela 1 - Matriz de correlaqao entre as variaveis 

A unica disciplina que nao apresentou alta correlaqao com as demais foi Educaqao 
Fisica (EF). Nas demais disciplinas, existe uma alta correlaqao entre as variaveis, o que 
comprova a afirmaqao de que um aluno que apresenta um bom desempenho em uma 
disciplina tambem apresenta nas outras, mas nao significa que ele tenha um bom 
comportamento ou bom rendimento em Educaqao Fisica. 

A Figura 3 mostra o comportamento do dendograma com todas as variaveis, na qual 
pode-se identificar a formaqao de dois clusters, os quais possuem as variaveis de maior 
relevancia dentro do conjunto. 


Diagrams de Arvore das Variaveis 
Metodo de Ward 



Figura 3 - Dendograma envolvendo as variaveis. 

O primeiro cluster e formado pelas variaveis Grau de Comportamento (GrauComp) e 
Educaqao Fisica (EF), o segundo, pelas demais disciplinas. Identifica-se um agrupamento que 
representa os atributos da area psicomotora/afetiva e outro formado pelas areas de 
ciencias/caognitivas, que exigem estudo, escrita e leitura. 

Procede-se com a analise de componentes principals para identificar as variaveis mais 
importantes em cada fator. O percentual de variancia explicada pelos dois primeiros 
autovalores e de 65,617%, que representa a variabilidade total do sistema. Parte-se, entao, 
para a identificaqao do numero de fatores a serem definidos para a analise. O criterio da 
escolha do autovalor maior que um corroboram para a indicaqao do metodo em que devem ser 
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usadas apenas as duas primeiras componentes para uma avaliaqao das variaveis. Utilizaram-se 
os autovalores, estimaram-se os autovetores para escrever a combinaqao linear que dara 
origem aos fatores. 

Depois de definidos os fatores de estudo, representam-se graficamente, na Figura 12, 
as variaveis no piano fatorial para comprovar os agrupamentos formados. 



0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 

Fator 1 

Figura 4 - Plano Fatorial - Fator 1 x Fator 2. 

Nota-se que os agrupamentos sao semelhantes aos formados na analise de cluster, 
representando o fator um como areas das ciencias, que exigem estudo, escrita e leitura, e o 
fator dois os atributos da area psicomotora/afetiva. Este estudo poderia seguir para uma 
analise individual dos Colegios, semelhante ao procedimento admitido na analise descritiva, 
onde seria possivel verificar qual instituiqao se adapta melhor ao padrao formado pela analise 
de componentes principals. Optou-se por verificar a rclaqao de alguns alunos com os fatores 
identificados. Foram escolhidos seis alunos, tres de cada Colegio. 

Apos a pro j cqao das variaveis no circulo unitario e projeqao dos casos no piano 
fatorial, observa-se que, dos alunos selecionados para analise, quatro estao no mesmo sentido 
das disciplinas da area das ciencias. Um aluno apresentou a menor nota de Educaqao Fisica e 
Comportamento Bom, abaixo da media geral de comportamento, o que determinou sua 
localizaqao oposta a localizaqao das disciplinas de Educaqao Fisica e Grau de 
Comportamento. Dessa forma, utilizando-se AC, ACP e AF, pode-se identificar um padrao 
entre os Colegios e classificar alunos de acordo com o modelo formado. 

Apos a identificaqao de que o Grau de Comportamento (GrauComp) nao e significante 
em relaqao as demais variaveis, procura-se determinar quais disciplinas sao mais importantes 
para a questao da aprovaqao final, ainda se utilizando outra variavel que e a dos Pontos 
Perdidos (PPerd). Por se tratar de um metodo de classificaqao de casos, usa-se, nesta etapa do 
estudo, a analise discriminante. 

Nesse caso, utiliza-se a variavel categorica Situaqao (Situac) para se classificar os 
alunos e gerar a funqao discriminante. As disciplinas de Fisica, Geaografia e Matematica sao 
as mais representativas no que se refere a classificaqao pela situaqao da matricula. Isso 
significa que, no boletim do aluno, essas disciplinas sao as que mais influenciaram na 
caracterizaqao da situaqao de aprovaqao do aluno no ano de 2004. 

Dessa forma, pode-se identificar a seguinte funqao de classificaqao para : 


a) Y A provados = 1,1424 * Fis + 7,9415 * Geo + 0,7309 * Mat -36,8693 

b) Y aprovados c/pr = 0,0255 * Fis + 6,6570 * Geo + 0,7383 * Mat -23,9353 
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c) Y RERO vados = 0,7655 * Fis + 7,727 4 * Geo -0,5777 * Mat -28,6316 

A Matriz de ClassificaQao, apresentada na Tabela 2, demonstra o percentual de 
valida?ao da funQao discriminante, onde se pode notar que, para os Aprovados, a funQao 
discriminante acerta em 98,4 % dos casos. Nota-se ainda que o percentual total de acerto do 
modelo e de 90,7 %. 



Percentual 

Aprovado 

Aprovado c/PR 

Reprovado 

Aprovado 

98,42209 

499 

8 

0 

Aprovado c/PR 

52,83019 

25 

28 

0 

Reprovado 

4,54545 

17 

4 

1 

Total 

90,72165 

541 

40 

1 


Tabela 2 - Matriz de classifica 5 ao 


Apos a identifLca?ao das variaveis significantes, parte-se para uma aplica?ao pratica, 
onde, informa-se o provavel grau para as disciplinas selecionadas pela funcao discriminante, e 
apresenta-se um resultado gerado pela classifica?ao.Utiliza-se, como exemplo um suposto 
aluno a ser testado no modelo criado. Informa-se para Matematica o grau igual 5,5, para 
Geografia, o grau igual a 6 e Fisica, o grau igual a 6. Para a classifica 5 ao do aluno foi 
utilizada a distancia de Mahalanobis. 

Dessa fonna, pode-se afinnar, com 98,42209% de certeza, que o referido aluno foi 
classificado na situacao Aprovado sem realizar recuperacao no final do ano letivo, pois o 
menor valor da distancia e a dos Aprovados. 


5. Conclusoes e recomenda^oes 

Utilizando tecnicas estatisticas multivariadas, baseado no rendimento dos alunos, 
elaboraram-se alguns modelos de perfil dos Colegios e dos alunos. Nas tres analises 
realizadas, verifica-se a rela?ao entre alguns indicadores de qualidade, disponibilizando, 
assim, subsidios para a tomada de decisdes da administra 5 ao. 

Na primeira analise, pode-se identificar um padrao entre os Colegios e classificar as 
escolas de acordo com o modelo fonnado, onde se conclui que os alunos concursados 
apresentam melhor desempenho que os amparados, considerando-se a media global da serie. 
Constata-se, ainda, que ha um maior numero de alunos com rendimento baixo nos amparados, 
principalmente no CMRJ. A rcprcsentacao do rendimento, comparada com a origem do aluno, 
atraves de histogramas na analise descritiva, disponibiliza uma visao clara das distributes 
formadas, o que comprova o eficiente uso da tecnica empregada. 

Na segunda analise, verifica-se a rela^ao entre as disciplinas e o comportamento, onde 
se caracterizam dois Colegios, e classificam-se os alunos de acordo com o modelo fonnado. 
Atraves da analise de cluster, pode-se identificar um agrupamento, que representa os atributos 
da area psicomotora/afetiva, e outro, fonnado pelas areas de ciencias/cognitivas. 

Nota-se, ainda, um agrupamento das disciplinas de Lingua Portuguesa e Biologia, 
assim como Quimica e Fisica. Esses estao agrupados porque apresentam medias semelhantes, 
ou seja, um aluno que tern bom rendimento em uma disciplina, tambem apresenta esta 
caracteristica na outra disciplina do grupo. 

Usa-se analise fatorial, por ser uma tecnica utilizada na tentativa de reduzir um grande 
conjunto de variaveis para um conjunto mais significativo, representado pelos fatores, onde se 
nota que os agrupamentos formados pela analise fatorial sao semelhantes aos fonnados na 
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analise de cluster. Utiliza-se a analise de compoanentes principals para identificar as variaveis 
mais importantes em cada fator. 

Com a inten 5 ao de verificar a rela?ao de alguns alunos com os fatores identificados, 
classificam-se seis alunos de acordo com o modelo fonnado. Torna-se valida a analise, pois se 
pode caracterizar o perfil desses alunos em relacao aos graus obtidos nas disciplinas e o 
comportamento. 

Na terceira analise, atraves da analise discriminate, identifica-se que as disciplinas de 
Fisica, Matematica e Geografia sao as mais representativas no que se refere a classifica^ao 
pela situacao da matricula e, ainda, que essas disciplinas sao as que mais influenciaram na 
caracteriza?ao da situa?ao de aprova^ao do aluno, no ano de 2004. Desta forma, cria-se um 
modelo para caracterizar um tipo de perfil para aprovacao, e utiliza-se, como exemplo, um 
suposto aluno com seus graus nas disciplinas mais significativas. 

Assim, pode-se afinnar que o referido aluno foi classificado na situacao Aprovado 
sem realizar recuperacao no final do ano letivo. Nao e o ideal para predicao de 
acontecimentos, mas pode-se admitir que um aluno que se enquadra no perfil de aprovacao 
em 2004 provavelmente tera um bom rendimento em 2005, seguindo uma unifonnidade dos 
modelos gerados a cada ano. 

Nesse caso, a tecnica foi valida porque se pode classificar alunos em situa 9 des de 
aprovacao, relacionando-os com o rendimento de ensino. Sugere-se a aplica^ao de analise de 
regressao para poder predizer situacoes de aprovacao, ou reprovacao, de alunos. 

Esta pesquisa e importante para os Colegios Militares pois, utilizando-se informa^oes 
sumarizadas e correlacionadas, representadas graficamente, o comando das institutes 
adquire maior dinamismo no controle dos processos de ensino. Atraves do detalhamento das 
tecnicas estatisticas aplicadas na explora 9 §o de dados, pode-se conhecer melhor a analise 
multivariada, no sentido de fomecer infonna 9 oes baseadas em ferramentas tecnologicas, para 
a tomada de decisdes. 

A utiliza 9 ao de indicadores de qualidade, annazenados em bancos de dados, defendida 
por Gil (1992), representa uma necessidade para os orgaos publicos. Visando a descoberta de 
conhecimento nessas bases, deve-se ampliar a estrutura de dados das institutes para 
armazenar indicadores socio-economicos, atributos da area afetiva, dados medicos e 
psicologicos e indices de satisfa 9 ao das pessoas. 

As novas ferramentas de data mining possuem ambientes graficos, onde se modela um 
projeto de explora 9 §o de dados. Este projeto, conectado com um banco de dados dinamico, 
mostra cenarios pre-definidos em tempo real, podendo ser acompanhado ao longo do tempo. 
Logo, sugestiona-se a utiliza 9 ao de uma ferramenta de controle estatistico nas institutes, 
para determina 9 ao das caracteristicas dinamicas dos processos que envolvem a area de ensino. 
Amparado na significance das informa 9 des contidas nas imensas bases de dados, estes, 
incluidos no decorrer da existence da escola, os projetos de explora 9 §o devem ser definidos 
pela administra 9 ao de ensino, determinando que indicadores analisar. 

Cinco tipos de conhecimento sao fundamentais para um bom trabalho de explora 9 §o 
de dados: conhecimento dos dados analisados, conhecimento na area da qualidade, 
conhecimento em estatistica, conhecimento dos programas de computador com recursos de 
minera 9 ao de dados, e, principalmente, conhecimento das regras do negocio. 

E imprescindivel dispor de analistas capacitados que saibam interagir com os sistemas, 
de forma a conduzi-los para uma extra 9 §o de padroes uteis e relevantes. 

Objetivando aumentar competencia e a criatividade nas institutes no que se refere a 
organiza 9 §o e gestao de sistemas de qualidade, atraves da metodologia desenvolvida neste 
trabalho, pode-se aplicar essas analises em institutes de ensino publico e/ou privado, 
caracterizando, assim, as diferen 9 as regionais e conhecendo a voca 9 §o do local onde a escola 
se encontra. 
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ARTIGO 3 

PRODUgAO AGRICOLA: UMA SINTESE MEDIANTE TECNICAS ESTATISTICAS 


Lorena Vicini 
Adriano Mendon^a Souza 


Resumo 

Neste trabalho, tem-se por objetivo analisar a producao de graos no setor agroindustrial, nos 
estados brasileiros, no periodo de 1995 a 2002. Para que se cumpra este objetivo, serao 
utilizadas tecnicas da analise multivariada e a analise de variancia. A analise de variancia e 
utilizada como uma tecnica confirmatoria, em relacao aos resultados obtidos na analise 
multivariada. Mediante analise dos resultados, foi possivel identificar, no decorrer deste 
periodo, as caracteristicas regionais, ou seja, o tipo de cultura que e predominante em cada 
regiao. Concluiu-se, entao, que os estados que possuem os maiores indices de produ?ao de 
graos do pais, e o tipo de cultura que predomina nesses, sao as seguintes: arroz no RS; soja, 
trigo, milho e feijao no PR; cafe em MG. Outras regioes tambem produzem, mas com uma 
menor representatividade em rela?ao a produ9ao nacional de graos, sao os estados de RO, AC, 
AM, RR, AP, TO, MA, PI, CE, RN PB, PE, AL, SE BA, ES, RJ, SC, DF. Os resultados, aqui 
obtidos, podem contribuir para a formacao de politicas de incentivo a agroindustria nacional, 
bem como no desenvolvimento das regides que nao estao apontados como destaque na 
produ9§o. 

Palavras-Chave: Analise Multivariada, Setor agroindustrial, Produ9§o, Analise de Variancia. 


1 Introdu 9 ao 

Nao restam duvidas sobre a importancia da ciencia e da tecnologia agroindustrial 
para o desenvolvimento do setor rural. No Brasil, e no mundo, estudos comprovam que novas 
variedades de plantas, aliadas a novos metodos de cultivo, elevaram a produtividade, e/ou 
reduziram custos de prodi^ao acelerando o desenvolvimento do setor rural. 

Agroindustria, hoje, e sinonimo de agrega9§o de valor; de adequa9§o de materias- 
primas; de preserva9§o e seguran9a dos alimentos; de desenvolvimento de processos e 
produtos; de desenvolvimento de equipamentos; de constnujao e aperfei9oamento de modelos 
de gestao; de conveniencia no consumo e de sistemas de produ9§o construidos em bases 
sustentaveis. A funcionalidade da agroindustria, portanto, constitui uma dimensao economico, 
social e ambiental de grande importancia para a sociedade brasileira (LEITE, 04/03/05). 

Os dados divulgados, sobre a agroindustria brasileira, mostram urn significativo 
crescimento na prodi^ao nacional, o qual so em 2003 cresceu 1,6%, atingindo, pelo terceiro 
ano consecutivo, uma expansao acima da industria em geral, que no ano de 2004 registrou 
apenas um discreto crescimento de 0,3%. De acordo com dados divulgados, no dia 13, pelo 
Institute Brasileiro de Geografia e Estatistica (IBGE), de 2000 para 2003, a atividade 
industrial nacional cresceu 4,5%, e somente a agroindustria avan90u 13,3% (IBGE, 10/05/05). 

Esse crescimento economico esta sendo possivel devido aos incentivos fiscais, no 
setor rural da economia, e aos avan90S da tecnologia voltados para agroindustria, pois hoje 
nao mais existem solos que possam ser ditos nao cultivaveis, ja que, com as devidas 
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corregoes, esse passa a ser produtivo. Outro fator, que deve ser levado em consideragao, e o 
grande territorio brasileiro. Isso tambem contribui para que o pais se destaque, cada vez mais, 
em relagao ao cenario mundial na produgao de alimentos. 

A agroindustria e um dos principals segmentos da economia brasileira, com 
importancia tanto no abastecimento interno como no desempenho exportador do Brasil. Uma 
avaliagao recente estima que sua participagao no Produto Interno Bruto (PIB) seja de 12%, 
tendo uma posigao de destaque entre os setores da economia, junto com a quimica e a 
petroquimica. Na decada de 70, a agroindustria chegou a contribuir com 70% das vendas 
extemas brasileiras. Atualmente, essa participagao esta em tomo de 40%, nao so pela 
diversificagao da pauta de exportagdes, mas tambem pela tendencia a queda dos pregos das 
commodities agricolas, nos ultimos 20 anos. Ainda assim, o setor cresceu e aumentou o valor 
das exportagoes em quase todos seus segmentos (SILVEIRA, 04/03/05). 

O objetivo do trabalho a analisar, por meio de tecnicas estatisticas, como comportou- 
se a produgao de graos no pais, no periodo de 1995 a 2002, de fonna a mostrar, 
estatisticamente, as diferengas significativas entre as regioes produto ras. 


2 Metodologia 

Neste trabalho, buscou-se demonstrar as diferengas existentes entre as regioes do Brasil 
atraves de tecnicas estatisticas uni e multivariadas, para a caracterizagao de todos estados 
brasileiros. 

Inicialmente, elaborou-se um banco de dados constituido pelos 27 estados brasileiros e pela 
produgao de graos. Essa produgao e representada pelas seguintes culturas: soja, milho, cafe, 
trigo, girassol, feijao e arroz, entre outras, perfazendo um total de 26 variaveis, num periodo 
de oito anos. As culturas em estudo sao constituidas pelos produtos de maior expressao de 
produgao, nos 27 estados brasileiros com coletas anuais. 

Posteriormente, uma analise descritiva foi conduzida para se conhecer o perfil de produgao de 
cada estado brasileiro. Para efetuar a analise, foi realizada uma media bianual das produgoes, 
pois esta possibilitou uma melhor visualizagao das variaveis, nao sobrepondo, graficamente, 
as culturas analisadas. Esta analise tambem possibilitou uma investigagao dentro de cada 
cluster formado, pois estes foram fonnados de acordo com a produgao ocorrida em cada 
cultura, ou seja, as produgoes semelhantes permaneceram em um mesmo grupo. Com isso, foi 
possivel identificar, graficamente, as oscilagdes ocorridas no periodo de 1995 a 2002. 

Devido a natureza dos dados, a analise multivariada foi aplicada para se entender o 
inter-relacionamento entre os estados e a sua produgao. A analise foi realizada a partir da 
matriz constituida por 27 estados e caracterizada por 26 variaveis, que representam os 
produtos. 

Para a associagao da produgao foi utilizada a analise cluster (AC), agrupando os 
produtos, em fiingao de suas caracteristicas fenotipicas e dendometricas. Essa analise foi 
aplicada utilizando-se o metodo aglomerativo hierarquico, que possibilita varias reunifies 
entre os produtos e os anos que possuem as mesmas caracteristicas, ou seja, possuem uma 
media de produgao semelhante. O processo de aglomeragao tern inicio com as variaveis que 
possuirem maior semelhanga, e este procedimento se repetira ate que a ultima variavel esteja 
agrupada. 

Para que esta uniao, entre grupos, seja possivel, utiliza-se o metodo de encadeamento 
unico {single linkage) que se baseia na distancia minima, utilizando a regra do vizinho mais 
proximo. 
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A representacao das seqiiencias de agrupamentos formados e apresentada na forma 
de um grafico de arvore, tambem chamado de dendograma. O dendograma expressa, no 
sentido da reta horizontal, a que distancia cada produto esta em relacao ao outro, ou seja, 
quanto menor a distancia mais homogeneos sao os produtos, e, no sentido da reta vertical, a 
distancia que cada grupo foi formado. Geralmente o corte e realizado na metade da maior 
distancia, podendo-se utilizar outros criterios para realiza-lo. 

Apos realizado o agrupamento das variaveis, utilizou-se a analise de componentes 
principais (ACP) e a analise fatorial (AF), para identificar quais as variaveis sao relevantes 
dentro do sistema produtivo de graos dos estados, e a analise fatorial para identificar o que os 
estados produzem. Para tal, utilizou-se a corrclacao entre as componentes principais e as 
variaveis originais, os pianos fatoriais e o circulo unitario. Por meio destas tecnicas foi 
possivel identificar os estados que melhor representam a produto de graos do pais, bem 
como o tipo de cultura que predomina em cada regiao. A partir dessas analises, e possivel, 
entao, caracterizar cada regiao com a sua produgao. 

Como a produgao dos estados, em muitos casos, e semelhante, utilizou-se a analise 
de variancia -ANOVA- como uma tecnica confirmatoria em relagao aos resultados obtidos da 
analise multivariada, ou seja, verificando-se se existe diferenca entre os estados que 
representam a produto nacional de graos. Se essa diferenca for significativa, em nivel de a 
= 5% de significance, conclui-se, entao, que existe diferenca entre a producao de graos dos 
estados brasileiros. 

Espera-se, com este procedimento, verificar, posteriormente, se essa diferenca e 
devido a fatores climaticos, de incentivos e de tradigao ao plantio. 


3 Resultados e discussoes 

Em quase todas as areas de aplicagao pesquisas sao realizadas, e varias variaveis sao 
observadas. Essas variaveis, em geral, nao sao independentes e, por isso, devem ser analisadas 
conjuntamente. Analise Multivariada e a area da Estatistica que trata desse tipo de analise. 
Varias sao as tecnicas que podem ser aplicadas aos dados. Sua utilizagao depende do tipo de 
dado que se deseje analisar, e dos objetivos do estudo. 

Inicialmente, realizou-se uma analise de cluster para verificar os grupos formados no 
dendograma, ou seja, aquelas variaveis que possuirem as mesmas medias de produgao irao 
fonnar grupos homogeneos, as variaveis que possuirem uma produgao diferenciada das 
demais fonnarao grupos heterogeneos. 

A Figura 01 mostra o dendograma fonnado a partir da matriz inicial de variaveis, 
mediante a tecnica da analise de cluster. Esses grupos foram definidos pelo tragado de uma 
linha paralela ao eixo horizontal, denominada “Linha Fenon”. Optou-se por tragar esta linha 
entre as alturas 8x10 e 1x10 , que representam as distancias euclidianas de ligagao entre as 
vaiaveis. Observa-se a formagao de tres grupos distintos. O grupo I e representado por aqueles 
produtos cuja produgao acontece em menor escala. Sao as variaveis: AR, que representa a 
produgao de arroz; FE, que representa a produgao de feijao; GI, que representa a produgao de 
girassol; TRI, que representa a produgao de trigo e CA, que corresponde a produgao de cafe, 
formando, assim, o primeiro grupo do dendograma. Enquanto que no grupo II e III reuniu-se 
os produtos que sao cultivados em maior escala, em relagao a produgao nacional. O grupo II e 
formado pela variavel MI, que corresponde a produgao de milho, e o grupo III e representado 
pela variavel SO, que corresponde a produgao de soja. Pode-se observar que os tres grupos 
formados sao distintos, ou seja, isto significa dizer que existe homogeneidade dentro de cada 
grupo e heterogeneidade entre os grupos. Isto e, as variaveis estao agrupadas por uma 
caracteristica comum. Observa-se, tambem, que a produgao de soja e a produgao de arroz sao 
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as mais distantes, pois estao nos extremos do dendograma. As produ 9 des mais similares sao 
as de feijao e as de girassol. Vale lembrar, aqui, que a altura do dendograma corresponde as 
medias de produgao de cada cultura. 
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Figura 0 1 : Dendograma da analise de cluster. 

Apos esta analise, efetuou-se o estudo da ACP e AF, com a inten^ao de se obter 
quais as variaveis mais importantes, e entender o seu inter-relacionamento. 

Embora existam diversos metodos para encontrar os autovalores e autovetores, a 
ACP e a que melhor desempenha este papel, sem que o pesquisador possua um profundo 
conhecimento, pois dessa fonna sempre se tern a garantia de se obter fatores unicos e nao- 
correlacionados (JOHNSON, 1995). 

Existem dois metodos para determinar o numero de componentes a serem utilizados 
na analise. O primeiro consiste em selecionar aquelas componentes cujos valores proprios 
sejam superiores a 1, ou que possulrem uma variancia igual ou superior a 70%, confonne 
Tabela 01. Esse criterio de sele 9 ao e sugerido por Kaiser (1960 apud MARDIA, 1979). 

Neste trabalho, as cinco componentes iniciais acumulam 98,63% da variancia total 
dos dados, ou seja, aproximadamente 98,63% da variabilidade dos dados e explicada pelas 
cinco primeiras componentes. Isso mostra que, de 26 variaveis com 27 observa 9 oes, passa-se 
a utilizar cinco componentes com 27 observa 9 des que representam o conjunto original, 
havendo, dessa forma, uma redu 9 ao de dimensionalidade do problema, com perda de 
explica 9 ao de 1,37%. 


173 


Tabela 01: Autovalores e a variancia explicada por cada componente. 


Componentes 

Autovalores 

Variancia total 

Autovalores 

acumulados 

Total 

acumulado 
em % 

1 

12,83 

49,35 

12,83 

49,35 

2 

6,40 

24,63 

19,23 

73,98 

3 

2,80 

10,80 

22,04 

84,78 

4 

1,92 

7,39 

23,96 

92,17 

5 

1,69 

6,47 

25,65 

98,64 

6 

0,32 

1,22 

25,96 

99,86 

7 

0,04 

0,14 

26,00 

100,00 


O segundo metodo, denominado de metodo grafico, representa, graficamente, a 
porcentagem de variagao explicada pela componente nas ordenadas, e os autovalores em 
ordem decrescente nas abscissas. Quando essa percentagem diminui, e a curva passa a ser 
praticamente paralela ao eixo das abscissas, exclui-se as componentes que restam, pois 
possuem pouca informagao. Esse criterio, que considera as componentes anteriores ao ponto 
de inflexao da curva, foi sugerido por CATTEL (1966) e exemplificado por PLA (1986), que 
considera cinco situacocs distintas, conforme mostra Figura 02. 



Aplicando-se a ACP, obtiveram-se as Figuras 03 e 04, as quais representam o 
primeiro piano principal. A Figura 03 com a distribuigao da nuvem de pontos (estados) e a 
Figura 04 com a distribuigao da nuvem de variaveis (produtos). Estas figuras estao 


174 


representando o fator 1, que e representado pelas variaveis MI, TRI e SO, em relaqao ao fator 
2, que e representado pela variavel CA. 

Na Figura 03, pode-se verificar que os estados estao distribuidos de acordo com sua 
representatividade em relaqao a produqao nacional de graos. Os estados que estao mais 
afastados da origem sao os que melhor representam esta produqao. 

Na Figura 04, pode-se observar a distribuicao de variaveis, os produtos. Mediante 
esta figura verifica-se que as variaveis, que melhor representam o fator 1 em relaqao ao fator 
2, sao aquelas que estao bem proximas ao circulo unitario. Analisando-se as duas figuras, 
simultaneamente, pode-se concluir que a variavel MI e a que melhor representa o primeiro 
piano principal, sendo esta a mais significativa e representa o estado do Parana. Este estado 
tambem representa as variaveis SO, TRI e FE, tendo, estas, uma menor representatividade. A 
variavel AR e representada pelo estado do Rio Grande do Sul e a variavel CA pelo estado de 
Minas Gerais. 

Fazendo-se uma analise dos cinco fatores nos pianos principals subsequentes, o 
resultado encontrado e analogo ao primeiro piano principal, ou seja, as variaveis milho, trigo, 
soja e feijao sao as que representam a produqao do estado do Parana. A variavel arroz 
representa a produqao do estado do Rio Grande do Sul, e a variavel cafe esta representando a 
produqao do estado de Minas Gerais, no periodo de 1995 a 2002. 


Projegao dos estados no piano principal fator 1 x fator 2 



Figura 03: Grafico da distribuiqao da nuvem de pontos. 
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Projegao das variaveis no piano pribncipal fator 1 x fator 2 



Figura 04: Grafico da distribute) da nuvem de variaveis. 


Em estatistica, ha muitas tecnicas que podem ser aplicadas para que seja realizada a 
analise dos dados. O ideal e aplicar outras tecnicas que confirmem os resultados obtidos. 
Devido a este fato, realizou-se uma analise de variancia, que vem confirmar os resultados 
obtidos com as tecnicas multivariadas, ou seja, verificar se existe diferenga signilicativa entre 
estes estados que melhor representam a produgao nacional de graos. Ja que a primeira e uma 
analise confinnatoria, e a segunda exploratoria. 

Tabela 02: Analise de variancia. 


ANOVA 


Fonte da 
variagao 

50 

Rl 

MQ 

F 

valor-P 

F critico 

Estados 

1,38035E+15 

5 

2,76E+14 

60,16717 

7,47068E-21 

2,386066 

Culturas 

3,7946E+13 

2 

1,9E+13 

4,135013 

0,021335235 

3,168246 

Interagoes 

2,46859E+15 

10 

2,47E+14 

53,80089 

l,8184E-24 

2,011181 

Dentro 

2,47772E+14 

54 

4,59E+12 




2 TOTAL 

4,13465E+15 

71 






Como pode-se observar, o valor de p < a, considerando a = 5% de significance, 
diz existir diferenga significativa entre a produgao de graos dos estados brasileiros. Podendo- 
se, entao, observar que culturas diferentes possuem regides diferenciadas de produgao. Isto 
seria um tanto logico de se esperar, pois, climaticamente, sabe-se que determinadas culturas, 


176 


como o trigo, precisa de regides frias para o seu cultivo. Sabe-se, tambem, que existem 
variedades de sementes de trigo que sao adaptadas para o seu cultivo em regioes de condicocs 
climaticas nao tao favoraveis. O mesmo ocorre com a produgao de milho, feijao e outras 
culturas. 

4 Conclusoes 

As tecnicas da analise multivariada, utilizadas neste estudo, mostram-se pertinentes. 
Pois foi possivel sintetizar, num determinado periodo, quais as regioes em que determinada 
cultura predominou, num periodo de oito anos, identificando os estados que melhor 
representaram a produgao nacional de graos, bem como o tipo de cultura existente. 

No periodo de 1995 a 2002, as regioes e as culturas que se destacaram na producao 
nacional de graos foram: a regiao sul, pela produgao de milho, trigo, feijao, soja e arroz e a 
regiao sudeste, pela produgao de cafe. As outras regioes nao apresentaram uma produgao 
expressiva. Contudo, estas regioes podem estar dedicadas a outras atividades economicas, 
como a bovinocultura, algodao, fruticultura, industrias, entre outras atividades. 

A analise de variancia serviu para confirmar os resultados obtidos nas tecnicas 
multivariadas, ou seja, mostrou que existe diferenga significativa de produgao entre as regides 
do Brasil. Esses resultados sao importantes, sabendo-se haver uma heterogeneidade de 
produgao entre os estados brasileiros, a qual se deve, em especial, as diferengas climaticas, 
culturais e de incentivos fiscais, entre outros fatores. 

Neste ano, pretende-se realizar um novo trabalho, a partir do periodo de 2002 ate 
2004, para que seja possivel verificar se a produgao dessas culturas sofireu alguma 
modificagao, tanto em relagao ao aumento da produgao nacional quanto em relagao as regioes 
em que foram destaque no periodo de 1995 a 2002, se ainda sao essas que possuem as mais 
expressivas produgdes do pais, ou se, a partir de 2002, com o aumento do prego da soja e com 
as mudangas sofridas no cenario produtivo nacional, pode-se acreditar que esses resultados 
tenham mudado. 

Esses resultados poderao vir a contribuir para a formagao de politicas de incentivo a 
agroindustria regional e nacional, pois, identificadas as regides que possuem carencia de 
produgao, pode-se, por meio de pesquisas nas areas de agronomia e gestao do agronegocio, 
difundir novos metodos de cultivos e novas variedades. 
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ARTIGO 4 

AVALIAQAO DA FAUNA EDAFICA EM CAMPO NATIVO MEDIANTE TECNICAS 

DA anAlise MULTIVARIADA 

Luiz Eugenio Jacobs 
Paulo Luis Guth 
Lorena Vicini 

Odorico Antonio Bortoluzzi 
Thome Lovato 

RESUMO: Devido ao fato de a natureza ser um sistema dinamico, toma-se importante o estudo sobre 
o solo e toda a fauna que o habita, pois a mesma reflete o padrao de fiincionamento do ecossistema. As 
coletas da fauna, umidade e temperatura foram realizadas semanalmente em uma area do 
departamento de solos da UFSM. O objetivo deste trabalho e verificar a abundancia em que os 
organismos sao encontrados no solo e, tambem, analisar se umidade e temperatura exercem influencia 
sobre a fauna edafica do mesmo. Para a analise desses dados, obtidos durante seis meses de coletas, 
recorreu-se a tecnicas estatisticas da analise multivariada, tais como a analise de Cluster e a analise de 
componentes principals (ACP). Essas tecnicas possibilitaram observar os grupos formados pelos 
organismos (variaveis), que possuem uma caracteristica em comum, isto e, a abundancia em que sao 
encontrados no solo. Verifica-se, tambem, que as variaveis (organismos) sao influenciadas pelas 
variaveis complementares (umidade e temperatura), no decorrer de toda a analise. Os resultados 
encontrados servirao de suporte para pesquisas subseqiientes, nesta area, e tambem ajudara no manejo 
do solo. 

Palavras chave: Fauna Edafica, temperatura, umidade, solo, analise multivariada. 

ABSTRACT: The organisms of the soil reflect the operation of the ecosystem. In that work it was 
verified the influence of the temperature and humidity on them. The multivariate analysis allowed to 
observe the groups formed by the organisms and to analyze the influence of the temperature and 
humidity on them. 

1. INTRODUCED 

A natureza e um sistema essencialmente dinamico, onde predomina a inter-relagao entre os 
seres vivos e a relagao destes, com o meio em que vivem. Cada fator da natureza, animal, planta e solo 
influem um sobre o outro, e a modificagao de um condiciona a alteragao de outro. 
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No principio o homem estudou esses fatores isoladamente, sem qualquer relagao com os demais 
fatores. Somente mais tarde passou a observar a relagao desses, bem como as transformagoes que 
sofrem e as conseqiiencias geradas nesse processo evolutivo. 

Desta maneira, preocupou-se muito com a natureza e, dentro desta, com o solo e toda a comunidade 
variada que o compoem, que tanto em termos quantitativos, como qualitativos sao indispensaveis a sua 
conservagao e funcionamento. Segundo Lopes Assad et al (1997) o biofuncionamento do solo e o 
conjunto de suas fungoes edaficas, interagindo com fatores ambientais, sao dependentes de regulagoes 
biologicas das plantas, microorganismos e fauna edafica. 

O conhecimento da biologia do solo, associado as informagoes oriundas de todos os ramos do 
conhecimento, toma-se indispensavel ao estudo de sua morfologia, o que podera nos proporcionar a 
maneira mais adequada ao manejo de nossos solos, garantindo maior equilibrio com os demais 
componentes bioticos e abioticos. 

As modificagoes do clima e do manejo do solo exercem influencia direta, e indireta, sobre a fauna 
edafica do solo, podendo diminuir o niimcro e a diversidade dos organismos que o compoem 
(VARGAS e HUNGR1A 1997). 

Devido a importancia em analisar a influencia da temperatura e umidade do solo sobre a sua 
meso e a macrofauna, realiza-se este trabalho, que tern como objetivo verificar se a temperatura e a 
umidade influenciam na quantidade e diversidade de organismos existentes no mesmo. 

2, METODOLOGIA 

2.1 Metodologia de coleta de solo, umidade e temperatura 

As coletas sao realizadas na area experimental do Departamento de Solos, na UFSM/RS.. O 
solo e classificado como Argiloso Vermelho Distrofico arenico (Embrapa, 1999). As coletas de 
amostras de solo, para determinar a fauna e umidade, sao feitas em quatro pontos diferentes em uma 
area de campo nativo. As amostras coletadas sao acondicionadas em sacos plasticos identificados. A 
seguir, realiza-se a flutuagao da amostra de solo, que consiste em colocar a amostra em um balde, 
adicionando 5 ml de alcool etilico, na seqiiencia deve-se completar o balde com 2,5 litros de agua, 
agitando-o com movimentos circulares. Com a agua ainda em movimento verte-se em peneira de 9 
mesh e 65 mesh, quatro vezes, ou ate a agua ficar clara. O material das peneiras deve ser coletado e 
armazenado em alcool 70%. Para verificar a umidade o solo deve ser coletado na profundidadc 
desejada e, imediatamente, pesado. Apos, deve-se seca-lo em estufa a 105°C, verificando-se a 
porcentagem de agua existente neste e fazendo a relagao entre peso seco e umido. 

Para obter-se a temperatura do solo instalou-se dois geotermometros, um a 1 0cm e outro a 
15cm de profundidadc, onde se fez a leitura semanal diretamente no instrumento. 

A contagem dos organismos e manual, em microscopio estereoscopio. 
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2.2 Metodologia de Analise 

As analises dos dados sao realizadas no Departamento de Estatistica da UFSM. Os dados 
dos organismos obtidos, em cada coleta, sao correlacionados com os dados da temperatura e umidade 
tambem coletados. O metodo estatistico, utilizado nas analises desses dados, foi a analise 
multivariada. Primeiramente desenvolve-se uma Analise de Cluster, que agrupa os organismos por 
abundancia da especie existente no solo. Em seguida realiza-se uma analise de componentes 
principals, para identificar em quais coletas a umidade e a temperatura influenciaram sobre os 
organismos. 

3. RESULTADOS E DISCUSSAO 

Em quase todas as areas de conhecimento pesquisas sao realizadas e varias caracteristicas 
(variaveis) sao observadas. Essas variaveis, em geral, nao sao independentes e, por isso, devem ser 
analisadas conjuntamente. Analise Multivariada e a area da Estatistica que trata desse tipo de analise. 
Varias sao as tecnicas que podem ser aplicadas aos dados. Sua utiliza^ao depende do tipo de dado que 
se deseja analisar e dos objetivos do estudo. Neste estudo, pretende-se apresentar as seguintes tecnicas 
multivariadas: Analise de Agrupamentos e Analise de Componentes Principals. 

No dendograma da Figura 1 a escala vertical indica o nivel de similaridade, e, no eixo 
horizontal, sao marcadas as variaveis, na ordem em que sao agrupadas. 


Tree Diagram for Variables 


Plot of Eigenvalues 


Single Linkage 
Euclidean distances 




Figura 1: Dendograma da analise de cluster. 


Figura 2: Propor?ao da varia9§o explicada pela component®. 


Como pode-se observar no dendograma da Figura 1, se fizermos um corte entre as alturas 5 
e 10, havera tres grupos homogeneos distintos. O grupo representado pelo circulo em verde, que 


Factor 2 : 18,10% 
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engloba a maior parte das variaveis estudadas, o grupo representado pelo circulo em vermelho, da 
variavel representada pelos anelideos e o grupo do circulo em rosa, da variavel representada pelos 
hymenopteros. Observa-se, entao, que os tres grupos formados sao distintos, ou seja, isto significa 
dizer que existe homogeneidade dentro de cada grupo e heterogeneidade entre os grupos, isto e, estao 
agrupados por uma caracteristica comum: maior abundancia no solo. 

A definiijao do numero de componentes, a serem utilizadas, e feita por meio do criterio 
sugerido por Cattel (1966). Este e denominado de metodo grafico e representa, graficamente, a 
porcentagem de varia£ao explicada pela componente nas ordenadas e os autovalores em ordem 
decrescente nas abscissas. Esse criterio considera as componentes anteriores ao ponto de inflexao da 
curva, como pode-se observar na Figura 2. O numero de fatores a serem utilizados na analise e seis, 
pois a partir do sexto fator ocorre uma estabilizapao no grafico. 

As Figuras 3 e 4 representam o primeiro piano principal. A Figura 3 com a distribuipao da 
nuvem de variaveis (organismos) e duas variaveis complementares, e a Figura 4 com a distribuipao da 
nuvem de pontos (coletas). 


Projection of the variables on the factor-plane (1x2) 
Active and Supplementary variables 
‘Supplementary variable 



Projection of the cases on the factor-plane (1x2) 
Cases with sum of cosine square >= 0,00 



Figura 3: Grafico da distribu^ao da nuvem de variaveis Figura 4: Grafico da distribui9§o da nuvem de pontos 

Com a ACP, Figura 3, observa-se que as variaveis Collembola, Hemiptera, Coleoptera, 
Crustacea e Acarina estao bem proximas ao circulo unitario, indicando que sao mais representativas 
em relagao as outras, que estao mais afastadas. Verifica-se, tambem, com esta analise, a influencia das 
variaveis complementares, umidade e temperatura, sobre as demais variaveis. A umidade esta 
influenciando nos organismos que se encontram representados no primeiro e quarto quadrante do 
circulo unitario. Ja temperatura influencia nos organismos do segundo e terceiro quadrante do circulo 
unitario. Em resumo, pode-se concluir, neste primeiro piano principal, representado pelo fator 1 em 
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rclagao ao fator 2, mediante ACP, que as variaveis que sofreram influencia da temperatura sao: 
Collembola, Hemiptera, Coleoptera, Crustacea, Acarina, Diptera, Aranae, Diplopoda, Quilopoda, 
Mollusca e Annelideo, e as que sofreram influencia da umidade sao apenas duas variaveis, Isoptero e 
Hymenoptero. 

A Figura 4 mostra que as variaveis que melhor explicaram o fator 1 sao representadas pela coleta um 
(Cl), sendo elas: Collembola, Hemiptera, Coleoptera, Crustacea e Acarina. As variaveis Diplopoda, 
Quilopoda, Mollusca, Annelideo, sao representadas pelas coletas dois e treze (C2 e Cl 3). As variaveis 
Diptera, Aranae, Isoptero e hymenoptero sao representadas pelas demais coletas, neste primeiro piano 
principal. 

4. CONCLUSOES 

A analise multivariada e uma ferramenta estatistica muito util, pois suas tecnicas sao 
capazes de mostrar, em um grupo de variaveis correlacionadas, resultados independentes. Desta forma 
conseguiu-se com a aplicatjao da tecnica da ACP, relacionar todos os fatores selecionados pelo criterio 
sugerido por Cattel (1966), em rclagao ao fator 1 que melhor explicou a proporgiio de variancia 
acumulada. Pode-se concluir que as variaveis complementares influenciam na quantidade e 
diversidade de organismos existentes no solo. Portanto conclui-se, com este trabalho, que das duas 
variaveis complementares, umidade e temperatura, a temperatura teve influencia em todos os pianos 
principals sobre as mesmas variaveis, sendo estas: Collembola, Hemiptera, Coleoptera, Crustacea, 
Acarina, Diptera, Aranae, Diplopoda, Quilopoda, Mollusca, Annelideo, e a umiadde influenciou 
apenas sobre duas variaveis, Isoptero e Hymenoptero. As coletas apresentaram diferentes resultados 
em cada piano principal, ou seja, representaram diferentes variaveis. 

Pelo exposto, neste trabalho, pode-se inferir que os metodos estatisticos aplicados na area da 
biologia do solo foram pertinentes, e os resultados obtidos podem contribuir, significativamente, para 
o manejo do mesmo. 
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6 ANEXQ 


Neste capitulo sera apresentada a revisao de algebra que servira de auxilio 
no desenvolvimento manual das tecnicas multivariadas deste trabalho. 

6.1 Algebra linear 

Representagao e notagao de matriz 

Aqui serao apresentados conceitos basicos sobre matrizes, naturalmente 
aplicados na resolugao de varios problemas, que sao essenciais, nao apenas porque 
eles ordenam e simplificam o problema, mas tambem porque fornecem novos 
metodos de resolugao. 

6.1.1 Notagao geral de uma matriz 

As matrizes geralmente sao representadas por letras maiusculas e seus 
elementos por letras minusculas, acompanhados por dois indices, que indicam a 
linha e a coluna que o elemento ocupa. Dessa forma A e uma matriz mxn, m linhas e 
n colunas e sua representagao e a seguinte: 


A = 


a,. 

(N 

1 

R 

a 2\ 

a 22 

• • • a 2n 

1 

& 

3 

a m2 

. . . a 

mn _ 


ou na forma abreviada, A = la,,. | , onde a„e a entrada da i-esima linha e i-esima 

coluna. 

Diz-se entao que A tern dimensao m x n e sera denotada por A e R mxn , se as 
entradas de a„ sao reais. 

A matriz A podera tambem ser expressa em termos de colunas: 
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A = [a l , a 2 , aj 

onde a i eR" vcl = R m , (i = 1, 2, n). 


■ Matriz quadrada 

E toda a matriz do tipo n x n, ou seja, com o mesmo numero de linhas e de 
colunas. Neste caso diz-se que a matriz e de ordem n. 

a \\ a n a n 

A ^2i ^22 ^23 

$3 j ^22 ^33 

Diz-se que A e uma matriz quadrada de ordem 3. Os elementos 
a u , a 22 , e a 33 formam a diagonal principal, e a soma dos elementos da diagonal e 
chamado de trago. 

■ Simetrica 


Uma matriz quadrada de ordem n e simetrica quando A = A 1 2 (A‘ significa a 
matriz transposta de A), isto e, para m = n e = a^, isso significa dizer que os 
elementos acima da diagonal principal sao iguais aos elementos abaixo. 


A = 


1 2 

2 3 

-2 0 


-2 

0 

4 


■ Matriz triangular 

E uma matriz quadrada onde todos os elementos de urn lado da diagonal 
principal sao nulos. Existem dois tipos de matriz triangular: 

Triangular superior: e uma matriz quadrada, onde todos os elementos abaixo da 
diagonal sao nulos. 
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A = 


3 

0 

0 


-1 4 
1 2 
0 3 


Triangular inferior: e uma matriz quadrada, onde todos os elementos acima da 
diagonal sao nulos. 


A = 


1 0 0 
2 2 0 
-4 0 4 


■ Diagonal 

Se A e quadrada e a tj = 0 para i * j, entao A e diagonal, isto e, todos os 

elementos que estao na diagonal principal sao nao nulos. 

Geralmente representada por: A diag(a n , a n , a nn ) 


A = 


5 0 0 
0 2 0 
0 0 1 


■ Identidade 


E uma matriz diagonal cujos elementos sao todos iguais a urn (a n = 1). 
Denotada por: I n . 


"1 

0 

o' 



0 

1 

0 

e L = 

1 

0 




z 

0 

1 

0 

0 

1 


1_ _1 


■ Matriz oposta 

A matriz A e oposta se A = la- 1 a matriz obtida a partir de A, trocando- 

L Jinxn 

se o sinal de todos os seus elementos. Notagao: - A. 
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6.1.2 Operagoes com matrizes 
■ Transposigao 


A transposta de qualquer matriz A e R mxn e obtida trocando-se 
ordenadamente linhas por colunas ou suas colunas por linhas. Conforme Valentin 
(2000) “a transposta de uma matriz quadrada simetrica e igual a ela mesma, e a 
transposta de um vetor-linha e um vetor-coluna”. 

Notagao: A r =[a„l 

l y J nxm 


Observe que a primeira linha de A corresponde a primeira coluna de A' a 
segunda linha de A corresponde a segunda coluna de A' e assim sucessivamente, 
conforme mostra o exemplo a seguir: 



"2 6 7“ 


“2 3 5“ 

^3x3 ~ 

3 2 1 

5 4 2 

^ 3x3 ~ ^3x3 ~ 

6 2 4 

7 1 2 


"1 7] 





“l 2 4“ 

2 8 

^3x2 ^2x3 

_7 8 6 

4 6 




■ Adigao e subtragao de matrizes 

A adigao e a subtragao de duas matrizes ocorre existe matrizes de mesma 
ordem, veja os exemplos : 

Adigao 


A soma de duas matrizes de mesma ordem, A mxn = \a tj \ e B mxn = [b tj J , e uma 

matriz mxn, que denotaremos A + B, cujos elementos sao somas dos elementos 
correspondentes de A e B, isto e, A + B = [a ;y + ^ ;y J (BOLDRINI, 1986). 
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A + B=C 



"1 4“ 


“2 

7“ 

A = 

_3 5_ 

eB = 

_3 

6 



'1 + 2 

4 + 7' 


"3 

11" 

A + B = 

3 + 3 

5 + 6_ 

=> C = 

6 

11 


Subtragao 

Dadas as matrizes A = a.. e B = b , chamamos de diferenca 

L ij Jm x n L ij J m x n y 

entre as matrizes A e B a soma de A com a matriz oposta de B. 

Notagao: A - B = A + (-B) 


"l 4l 


"2 

7] 


"l 

4 


"-2 

-7] 


"1-2 

4 

- 7l 


-1 -3" 


— 



= 



+ 



= 




= 


_3 5_ 


_3 

6J 


_3 

5J 


-3 

- 6 J 


3-3 

5 

-6\ 


0 -1 


Deve-se ter em mente que a adigao e subtragao de matriz sao operagoes 
comutativas e associativas, portanto: 

A + B = B + A 
A + (B + C) = (A + B) + C 

■ Multiplicagao de uma matriz por um numero real 

Seja A =la.:J e K um numero real, entao a nova matriz sera definida por: 

L 1JJ nxm 

k.A = [ka,] ■ 

Multiplica-se cada elemento da matriz pelo numero real. 



"1 

2 

4] 


"2.1 

2.2 

2.4" 


'2 

4 

8" 

2. 

2 

1 

3 

= 

2.2 

2.1 

2.3 

= 

4 

2 

6 


3 

0 

2 


2.3 

2.0 

2.2 


6 

0 

4 


■ Multiplicagao de matrizes 

O produto de duas matrizes e obtido por A = |a H I e B=|b: ; | e a matriz 

J- mxp J 'pxn 

C = |c,, I , onde cada elemento e obtido mediante a soma dos produtos dos 

J Tnxn J 
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elementos correspondentes da i-esima linha de A e pelos elementos da j-esima 
coluna de B. Esta operagao so sera possivel se o numero de colunas da primeira 
matriz for igual ao numero de linhas da segunda. 


A r = r 

mxp * pxn ^ mxn 


A 

'^ l 3X2 


r = 

'~'3x3 


«11 

a \2 

^ ^ 2 x 3 

b n 

b\2 

b\3 

Q 2 l 

a 22 

p2\ 

^>22 

b>23_ 

_ a 31 

a 32 J 






a n^U a \p2\ a \\b\2 a \p22 a \P\3 a \p23 

^21^11 ^22^21 ® 2 p \2 ^ 2 p 22 1^13 ^22^23 

a 3\b\\ + a 3p2\ a 3\^U ■*" a 32^22 a 3\b\3 + a 3p23 


^2x3'®3x3 ^2x3 



"4 3 ll 



2 2 8 




2.4 + 2.2 + 8.1 2.3 + 2.0 + 8.2 2.1 + 2.1 + 8.0 " 



2 0 1 

= 


1 3 - 3 J 


1 2 0 


1.4 + 3.2 + (-3).l 1.3 + 3.0 + (— 3).2 1.1 + 3.1 + (-3).0_ 


c 

^ 2x3 


20 22 4 
7-3 4 


A associagao de duas matrizes e associativa, mas nao e comutativa. 

A ( /? C 1 ) = ( A /? ) 

J1 n ix p * V pxn * ^ mxn ) \' rL n ixp * pxn 


mxp pxn / mxn 


^ mxp * ^ pxn ^ pxn ’ ^ mxp 


■ Matriz Inversa 

Se A e B e R nxn e A.B = B.A = I n , entao B e a inversa de A. Denotada por 

A- 1 . 

Conforme Valentin (2000) “uma matriz so e inversivel se for quadrada, mas 
nem toda a matriz quadrada pode ser inversivel”. Uma matriz que nao admite 
inversa e chamada matriz singular. 

Obs: Se A 1 existe A e dita nao singular. 
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Propriedades: 

/) A~\A = A.A~ l = I 

a ) \a^\ = 

\A 

Hi) \a '\ 1 = [a-'] 

Determinante 

Por definigao tem-se que, seja A uma matriz quadrada. A fungao 
determinante e denotada por det e definimos por det A como soma de todos os 
produtos elementares com sinal de A. O numero de det A e chamado determinante 
de A. Uma observagao importante e que para cada matriz existe urn numero real 
denominado determinante da matriz. 

Se A e nao singular, entao: 

det A = + det A tj 

j = i 

onde A e a submatriz da inicial, na qual a i-esima linha e a j-esima coluna foram 
retiradas. 

Escreve-se determinante de A pela expressao: A = det.A = |a| 

• determinante de matriz de 1 a ordem 

Dada uma matriz quadrada de 1 a ordem A = [a n ], chama-se de 
determinante associado "a matriz A o numero real a n . 

Notagao: det A ou |a n | . 

A, = [2] det Aj = 2 ou \ 2 \= 2 


determinante de matriz de 2 a ordem 


Dada a matriz A = 


a n a i2 


a 21 a 22 


, de ordem 2, por definigao, tem-se que o 


determinante associado a essa matriz, ou seja, o determinante de 2 a ordem e dado 
por: 
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det A = 


a il a 12 


a 21 a 22 


a n a 22 " a 12 a 21 ’ 


assim: 

det A = a, n ci,,., - a 12 a 21 , 


sendo A = 


det A = 


1 

2 


1 

2 

0 

5 


0 

5 


, entao: 


= 1.5 -2.0 = 5- 0 = 5, 


logo det A = 5 

Deve-se observar que o determinante de uma matriz de ordem 2 e dado 
pela diferenga entre o produto dos elementos da diagonal principal e o produto dos 
elementos da diagonal secundaria. 

Propriedades: 

i) Se todos os elementos de uma linha ou coluna de uma matriz A sao nulos, entao 
det A = 0. 

ii) det A = det A' 

iii) Trocando a posigao de duas linhas (ou colunas) o determinante troca de sinal. 

iv) O determinante de uma matriz que tern duas linhas (ou colunas) iguais ou 
proporcionais e zero. Em geral, 

v) det (A+B) * det (A) + det (B). 

vi) det (A.B) = det (A) + det (B). 

vii) Se multiplicar uma linha da matriz por uma constante, o determinante fica 
multiplicado por esta constante 

viii) Se A e singular entao o det A = 0 

Se A e nao singular entao o det A * 0 


A matriz A = 


a c 
b d 


e singular se, e so se, det A = 0 


O determinante de uma matriz pode ser calculado de duas formas pelo 
Teorema de Laplace, que serve para calcular o determinante de matrizes de 
qualquer ordem ou pela Regra de Sarrus, que serve para calcular o determinante de 
matrizes de ordem 3. 

Para aplicar o Teorema de Laplace faz-se necessario citar algumas 
definigoes de calculos intermediaries: 



191 


❖ menor complementar: Chama-se menor complementar relativo ao elemento a y 
de uma matriz A, quadrada e de ordem n > 1, o determinante AC-, de ordem n - 1, 
associado a matriz obtida de A quando elimina-se a linha e a coluna que passam por 


a) Dada a matriz A = 


, de ordem 2, determinar o menor complementar 


relativo ao elemento a u (AC u ), retirando a linha 1 e a coluna 1 : 
Logo: 

MC U = |a 22 | = a 22 

Da mesma forma, temos: 

• menor complementar relativo ao elemento a n : 

MC 12 = |a 21 | = a 2l 


• menor complementar relativo ao elemento a 2l : 

MC 21 = |o 12 | = a n 

• menor complementar relativo ao elemento a 22 : 

MC 22 = |a n | = a n 


1 0 2 

b) Dada a matriz A = -2 3 0 , de ordem 3 determina-se: 

-1 1 3 

. MC n = 3 { ° 3 => 3.3 -(1.0)= 9 

• MC 12 = “ 2 ° => - 2.3 - (-1.0) = - 6 

12 - 1 3 

• MC n = ~ 2 3 => -2.1 -(-1.3)= 1 

13 -1 1 


Analogamente torna-se possivel determinar MC,,, MC„ , MC 73 , MC 31 , 
MC 32 , MC 33 . Logo a matriz do menor complementar sera: 
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M = 


9 

-2 

0 


-6 1 
5 1 

4 3 


Cofator: Chama-se de cofator relativo ao elemento a y de uma matriz quadrada de 
ordem n o numero A , tal que A = (-l) 1 + j .MC ir 


Dada A = 


‘21 


, os cofatores relativos a todos os elementos da matriz 


A sao: 


• A n =(-l) 1+1 .a 22 =(-1) 2 . a 22 =+ a 22 
. A 12 =(-1) 1 + 2 .a 21 =(-1) 3 . a 21 =-a 21 
. A 22 =(-1) 2 + 2 .a n =(-1) 4 . a n =+a n 
. A 21 = (-1 ) 2 + 1 ■ a 12 = (-1) 3 . a 12 = - a 12 


> Matriz Adjunta: Uma matriz quadrada A, denomina-se matriz adjunta de A, a 
transposta da matriz dos cofatores de A, isto e, adj A = a* . 

A matriz adjunta e denotada por a 1 = — - — .adj a. 

det(A) 

O Teorema de Laplace, diz que o determinante de uma matriz quadrada de 
ordem n>2, e igual a soma dos produtos dos elementos de uma fila (linha ou 
coluna) pelos respectivos cofatores. Logo tem-se que: 



«n 

a \2 

a 13 

«n 

fl 12 

det A = 

°21 

a 22 

fl 23 

fl 2 i 

«22 


a 31 

a 32 

«33 1 

fl 31 

a 32 


| »^22 *^33 • I ^ *^23 *^3 j * I ^*2 1 "^32 '^] 3 * 3 *^23 *^*3 1 * ^ j 3 »^2 1 '^32 * ^^23 *^*32 '^| 1 


— a U-( a 22- a 33- a 23- a 32-) a ni a 2l- a 33- a 23- a 3 \ •) + a \3'(. a 2l - fl 32- a 22- a 3\\ 


Pode-se escrever: 


det A = a n 

a 22 

a 23 

a \2 

a 2\ 

a 23 

a i3 

U 21 &22 


_ U 32 

a 33_ 


_ a 3\ 

a 33_ 


fN 

ro 

CO 
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Ou ainda det A = a n |4i|-«i 2 |42| + a i3|43| - onde A j ® 3 submatriz obtida 
retirando-se a i-esima linha e a j-esima coluna. 

Se Ajj = ( u 1+j ,obtem-se a expressao: 

det A — a n A n +a 12 A 12 +a 13 A 13 . 

Para matrizes de ordem n, tem-se: 


det(A) n =a n A n +ai 2 A 12 +ai 3 A 13 +... + a ln A in = Sa^Ay = Say (-1) 1+J |A y |. 

j=i 

O numero A ;j =(-i) i+j |A ;j |e chamado de Cofator. 

Com estes cofatores pode-se formar uma nova matriz a, denominada matriz 
dos cofatores de A. 

A= [AyJ, noqual A y =(-i) i+ ^A g |. 

"1 0 - 2 " 

D, = 0 3 2 

1 5 5 



Aplicando Laplace na coluna 1, se obtem o resultado: 


,i+i I 3 2 


+ o(-iy 


o -2 


+ 1(-1) 3 



D | = 1.(1 ).5 + 0.(-1).10 + 1.1.6=>5 + 0 + 6=> 11 


D j= 11 

Outra forma de encontrar o determinante e atraves da Regra de Sarrus: 
Esta regra e utilizada para calcular determinante de 3 a ordem. 

1 ) Calcular o determinante atraves da regra de Sarrus: 

2 3-1 

D = 4 1 2 

-3 2 1 

1°) Repete-se as duas primeiras colunas a direita do determinante: 

2 3 — 1| 2 3 

4 12(41 

-32 l|-32 


2°) Multiplicam-se : 
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- os elementos da diagonal principal e os elementos de cada paralela a essa 
diagonal, conservando o sinal de cada produto obtido; 

- os elementos da diagonal secundaria e os elementos de cada paralela a essa 
diagonal, invertendo o sinal de cada produto obtido. 

Logo: 

det D = 2.1.1 + 3.2. (-3) + (-1 ).4.2 - [(-1 ).1 .(-3)] - [2.2.2] - [3.4.1] 
detD = 2-18-8 -3 -8-12 
det D = - 47. 

"1 4 1" 

Sendo A - - 2 5 2 : determine a matriz inversa de A, se existir. 

3 2 3 

1 4 1 | 1 4 

det A = -2 5 2 | -2 5 

3 2 3 | 3 2 

det A = 15 + 24-4- 15-4 + 24 

det A = 63 - 23 
det A = 40 

Matriz do menor complementar 


1 4 1 

A = - 2 5 2 

3 2 3 


5 2 

MC U = =15-4 = 11 

11 2 3 

-2 5 

MC U = =-4-15 = -19 

13 3 2 

1 1 

MC 22 = =3-3 = 0 

3 3 

4 1 

MC,. = =8-5 = 3 

31 5 2 


-2 2 

MC I2 = =-6-6 = -12 

12 3 3 

4 1 

MC„ = = 12 - 2 = 10 

21 2 3 

1 4 

MC„ = = 2 - 12 =- 10 

23 3 2 

1 1 

MC„ = =2 + 2 = 4 

32 -2 2 
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mc 33 = 


1 4| 
-2 5 


= 5 + 8 = 13 


M = 


11 

10 

3 


-12 -19 
0 -10 
4 13 


Matriz dos Cofatores 


M = 


11 

10 

3 


-12 -19 
0 -10 
4 13 


A n =(-l) 1+1 .ll = (-l) 2 .ll = ll 

4 3 = (-l) 1 + 3 .(-19) = (-l) 4 .(-19) = -19 

a 22 = (-l) 2+2 .0 = 0 

4 1 =(-1) 3 + 1 .3 = (-1) 2 .3 = 3 
^33 = (-1) 3 + 3 .13 = (-1) 6 . 13 = 13 


Ai = (— 1) 1 + 2 -(— 12) = (— 1)-(— 12) = 12 
A 2l =(-l) 2 + 1 .10 = (-l) 3 .10 = -10 
A 2i = (— 1) 2+3 -(— 10) = (— 1) 5 .(— 10) = 10 
A 32 =(-l) 3 + 2 .4 = (-l) 5 .4 = -4 


c = 


11 

-10 

3 


12 

0 

-4 


-19 

10 

13 


Matriz adjunta 


C' 


11 -10 3 

12 0 -4 

-19 10 13 


Matriz inversa 


1 

“ 11 

-10 

3 “ 


12 

0 

-4 


40 

-19 

10 

13 


“ 0,275 

-0,25 

0,075 


0,3 

0 

- 

0,1 

- 0,475 

0,25 

0,325 
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Para verificar a existencia da matriz inversa basta aplicar a propriedade: 

A~\A = I 

“ 0,275 -0,25 0,0751 |"l 4 l" 

0,3 0 -0,1 .-2 5 2 

-0,475 0,25 0,325j [ 3 2 3 

a n = (0,275).(1) + (-0,25). (-2) + (0,075)(3) = 1 

a X2 - (0,275). (4) + (-0,25).(5) + (0,075)(2) = 0 

a n = (0,275).(1) + (-0,25). (2) + (0,075)(3) = 0 

a 21 = (0,3). (1) + 0.(-2) + (-0,1). (3) = 0 

a 2i ~ (0,3).(4) + 0.(5) + (-0,1). (2) = 1 

a 23 = (0,3).(1) + 0.(2) + (-0,1). (3) = 0 

a 31 = (-0,475). (1) + (0,25). (-2) + (0,325).(3) = 0 

a i2 = (-0,475). (4) + (0,25).(5) + (0,325).(2) = 0 

a 33 = (-0,475).(1) + (0,25). (2) + (0,325).(3) = 1 

“1 0 0“ 

7=010 
0 0 1 

6.2 Sistemas lineares 

E toda a equagao da forma: a x x x + a 2 x 2 + a 3 x 3 + + a n x n = b, onde 

a x , a 2 , a 3 , , a n sao numeros reais que recebem o nome de coeficientes das 

incognitas x x , x 2 , x 3 , , x n e b e um numero real chamado termo independente. 


Sistema linear 
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e um sistema linear de m equagoes e n incognitas. 

Este sistema pode ser escrito na forma matricial: 


1 

K> 

■ <h n 


Xi 


1 

1 

a 2l a 22 

■ a 2n 


x 2 

= 

b 2 

_ a m\ a m2 

. a 

mm _ 


1 

X . 

a 

1 


1 

* ^ 
1 


ou seja, X = A 1 .B . 


Solugao do sistema linear 

Chama-se de solugao do sistema a n-upla de numeros reais ordenados 
(i\, r 2 , r 3 , que e, simultaneamente, solugao de todas as equagoes do 

sistema. 

6.2.1 Matrizes associadas a um sistema linear 


• Matriz Incompleta 


E a matriz A, formada pelos coeficientes das incognitas do sistema. 
Em relagao ao sistema: 


3x + 3 v - z = 4 

<2x + 2 y + z = 3, a matriz incompleta e: 

x + 5y + z = 0 


A = 


3 3 
2 2 
1 5 


-1 

1 

1 


• Matriz Completa 


A matriz B, e obtida ao acrescentar a matriz incompleta uma ultima coluna 
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formada pelos termos independentes das equagoes do sistema. 
Em relagao ao sistema: 


3x + 3 v - z = 4 
<2x + 2 y + z = 3 , 
x + 5y + z = 0 


a matriz completa e: 


B = 


3 3 
2 2 
1 5 


-1 4 
1 3 
1 0 


Classificagao quanto ao numero de solugoes de um sistema linear, conforme 
paiva (1996). 


Conforme Paiva (1995) um sistema linear e classificado de acordo com o 
numero de solugoes que possuir. Este podera ser um sistema possivel e 
determinado (SPD), um sistema possivel e indeterminado (SPI) ou um sistema 
impossivel (SI). 

O SPD e aquele sistema que admite uma unica solugao. 

f x + v = 8 

' , este sistema tern uma solugao unica, que e o par ordenado (3, 5). 

[2x-y = l 

Dessa forma o sistema e possivel, pois tern solugao, e determinado possui 
uma solugao unica. 

O SPI e aquele sistema que admite mais varias solugoes. 

x + v = 8 

\ ^ este sistema possui infinitas solugoes, algumas delas sao os pares 

ordenados: (0, 8), (1, 7), (2, 6), 

Dessa forma o sistema e possivel, pois tern solugao, e indeterminado possui 
infinitas solugoes. 

OS/e todo sistema linear que nao admite nenhuma solugao. 
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f x + v = 10 

< , neste sistema nenhum par ordenado satisfaz simultaneamente as 

[-*->> = 10 

equagoes. 

Dessa forma o sistema e impossivel, pois nao tern solugao. 


Sistema linear 


\ 


possivel 


determinado (uma unica soliu^ao) 


indeterminado (varias so lu^oes) 


Impossivel (nenhuma soliujao) 


Figura 83: Resumo dos sistemas lineares. 
Fonte: Paiva (1995). 


Discussao de um sistema linear 

Urn sistema linear que possui n equagoes e n incognitas pode ser: 

■ sistema possivel e determinado, se D = det A * 0. Neste caso a solugao e unica. 

■ Sistema possivel e indeterminado, se D = D xl = D x2 = D x3 = .... = D xn = 0, para 

n = 2 e para n > 3, sendo que esta condigao so e valida se nao temos equagoes 
com coeficientes das incognitas respectivamente proporcionais e termos 
independentes nao-proporcionais. Neste caso o sistema apresenta infinitas 
solugoes. 

■ Sistema Impossivel, se D = 0 e existe D xl * 0, 1 < i < n. Neste caso o sistema 
nao tern solugao. 

Sistema normal 

Um sistema e normal quando tern o mesmo numero de equagoes mede 
incognitas n e o determinante da matriz incompleta associada ao sistema e diferente 
de zero. 

Ou seja, se m = n e det A + 0 o sistema e normal. 

|x + y= 5 
jx-y = l 

Temos: m = 2, n = 2 => m = n (I) 
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detA =1 1 =>-1 -1 = -2 portanto det A ± 0 (II) 

1-1 

De (I) e (II), conclui-se que o sistema e normal. 

Regra de cramer 


A Regra de Cramer e uma forma de resolver urn sistema linear. Esta regra 

diz que todo o sistema normal tern uma unica solugao dada por: x = ^- onde 

1 D 

ie{ 1, 2, 3, ...,n}, D = det A e o determinante da matriz incompleta associada ao 
sistema e d x e o determinante obtido atraves da substituigao, na matriz incompleta, 

da coluna i pela coluna formada pelos termos independentes. 

(x + 2y = 3 
[3x-2y = l 

Temos: m = n = 2 

1 2 

D = ^ ^=-2-6 = -8^0. Como o sistema e normal, pode-se utilizar a regra de 

Cramer para resolve-lo. 

[1 2 1 

Substituindo, na matriz incompleta 2 ’ 3 co ' una ^ 1 P e ' a co ' una 

formada pelos termos independentes, tem-se: 

3 2 

D x = ^ = - 6 - 14 = - 20. Substituindo, agora, C, pela coluna dos termos 

independentes, tem-se: 

1 3 

D = =7-9 = - 2. 

y 3 7 


A D -20 5 

Assim: x = < = = — 

D -8 2 


_ D v -2 _ 1 

V d " -8 _ 4 


Logo, ( x, y ) = — e a solugao do sistema dado. 

1 2 4 


Pode-se encontrar a solugao do sistema de duas formas: pela forma 
matricial e pela regra de cramer, conforme segue. 



201 


x + 2y - z = 1 

Encontre as solugoes do sistema < - 2x + y + 4z = 5 

3x + 3 v + z = 2 

a) pela forma matricial, X = A~\B 



Determinante de A 



1 

2 -1 | 

1 

2 

det A = 

-2 

1 

4 1 

-2 

1 


3 

3 

1 j 

3 

3 


detA = 1+24 + 6 + 3-12 + 4 = 0 
det A = 26 
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Matriz dos cofatores 

Ai = (-1) 1 + 1 .(-11) = (-1) 2 . 11 = -11 A, 2 = (-l) 1 + 2 .(-14) = (— 1)-(— 14) = 14 

As = (-l)' +3 .(-9) = (-l) 4 .(-9) = -9 A 21 = (-1) 2 + 1 .5 = (-1) 3 .5 = - 5 

A 22 = (-l) 2 + 2 .4 = (-1) 4 .4 = 4 A 23 = (-l) 2 + 3 .(-3) = (-1) 5 .(~3) = 3 

A 31 = (-1) 3+1 .9 = (-1) 2 . 9 = 9 A 32 = (-l) 3 + 2 .2 = (-1) 5 .2 = - 2 

^33=(-l) 3 + 3 .5 = (-l) 6 .5= 5 

'-11 14 -9~| [-11 -5 9 1 [-11 -5 9 

C= -5 4 3 C l = 14 4 -2 A~ l =— 14 4 -2 

26 

9 -2 5 J [-9 3 5 J [-9 3 5 

x = a\b 

"-0,423 -0,192 0,346 l[l" 

A ' = 0,538 0,153 -0,07 . 5 . 

-0,346 0,115 0,192 J [2 

As solugoes encontradas para o sistema sao: 
x = (-0,423). (1 ) + (-0,192). (5) + (0,346).(2) 
x = -0,69 

y = (0,538). (1 ) + (0,153). (5) + (-0,07).(2) 

y = 1,16 

z = (-0,346). (1 ) + (0,1 15).(5) + (0,192). (2) 
z = 0,61 

b) pela regra de cramer. 

"1 2 -f 

A= -2 1 4 

3 3 1 

1 2 -1 | 1 2 

A = -2 1 4 |-2 1 

3 3 1 | 3 3 

detD = 1+24 + 6 + 3-12 + 4 = 0 


det D = 26. 

Para calcular D x , substitui-se a primeira coluna de A pelo vetor B: 
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1 

2 

-1 

1 

2 

5 

1 

4 

5 

1 

2 

3 

1 

2 

3 


D x = 1+16-15 + 2-12-10 
D x =-18 

Para calcular D y , substitui-se a segunda coluna de A pelo vetor B: 



1 

1 

-1 I 

1 

1 

D > = 

-2 

5 

4 1 

-2 

5 


3 

2 

1 | 

3 

2 


D y = 5+12 + 4 + 15-8 + 2 
D y =30. 

Para calcular D z , substitui-se a terceira coluna de A pelo vetor B: 



1 

2 

1 | 

1 

2 

D : = 

-2 

1 

5 1 

-2 

1 


3 

3 

2 I 

3 

3 


D z = 2 + 30-6-3-15 + 8 
D z =16. 


As solugoes encontradas para o sistema sao: 


D 


-18 


x = ^ = — =-0,69 
D 26 


Como se pode observar os dois metodos sao equivalentes, isto e, possuem 
as mesmas solugoes. 
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6.3 Representagao vetorial 

Vetores geometricos conforme valentim (2000) 

Os vetores podem ser representados geometricamente como segmentos de 
reta orientados ou como flechas nos espagos bi ou tri-dimensionais. A diregao e o 
sentido da flecha indicam a diregao e o sentido do vetor. A cauda da flecha e 
chamada de ponto inicial do vetor e a ponta da flecha e chamada de ponto final. 
Quando se estiver tratando de vetores os numeros serao chamados de escalares. 
Os vetores com o mesmo comprimento, diregao e sentido, sao ditos equivalentes. 
Como se quer que o vetor seja determinado somente pela sua diregao, comprimento 
e sentido considera-se vetores equivalentes como sendo iguais mesmo quando 
estiverem localizados em posigoes diferentes (RORRES, 2001). 

Representagao vetorial de um exemplo pratico 

Imagine os resultados que se pode obter utilizando dados quantitativos. Por 
exemplo, os dados referentes a tres especies de vegetais, chamadas de Vg 1 ,Vg 2 e 
Vg 3 , sendo realizadas em duas coletas, A ] e A 2 conforme Tabela 24. Seja a o 
numero de individuos encontrados de cada especie e em cada estagao, logo a n 
corresponded ao numero de individuos da primeira especie, na primeira coleta, a n 
corresponded ao numero de individuos da segunda especie, na segunda coleta e 
assim sucessivamente. 


Tabela 24: Dados multidimensionais 


Individuos 

A 

A 

Vgi 

a u 

a u 

Vg 2 

a 2l 

a 22 

Vg 3 

a 31 

a 22 
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Generalizando esses dados para tabelas de n linhas e p colunas, o numero 
ay de individuos sera posicionado na tabela pelos indices / e j sendo ie{l,n] e 

v'e {i, p] ■ 

Conforme Valentin esses dados podem ser representados de duas maneiras 
diferentes: 

a) no espago das coletas (Figura 84a), plotando os pontos representatives de cada 
especie a partir dos valores de ay num sistema de dois eixos-coletas ortogonais A, 

e A 2 , 

b) no espago especie (Figura 84b ), plotando os pontos representatives de cada 
coleta a partir dos valores de a tj num sistema de tres eixos-especie ortogonais 

V gl ,Vg 2 e Vg 3 . 



Figura 84: Representagao vetorial das especies nos espagos das estagoes (a) e das estagoes no 
espago das especies (b) 

Como observa-se na Figura 84 a cada ponto posicionado, no espago bi ou 
tridimensional, associa-se urn vetor. Na Figura 84a os vetores especie sao 
representados por v gl , v gl e Vg 3 formados de dois elementos (sao iguais as suas 

respectivas abundancias nas duas estagoes) e os vetores-estagoes na Figura 84b, 
A , e a 2 formados por tres elementos (sao iguais as suas respectivas abundancias 
nas especies) (VALENTIN, 2000). 
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Operagao com vetores conforme valentin (2000) 

Multiplicagao de um vetor por um escalar 

Seja um vetor-especie A 2 . Multiplicando esse vetor por um escalar, 

por exemplo 2, resultara em outro vetor ^22a 21 ,2a 22 , cujos elementos foram 
multiplicados pelo escalar 2 na Figura 85. 



Adigao de dois vetores 

Se adiciona-se as abundancias de duas especies representadas pelos 
vetores A x e A 2 o resultado sera um vetor A 3 , cujos elementos serao 

iguais a soma dos elementos que correspondem aos dois vetores: 
(a n + a 21 , a 12 + a 22 ) como mostra a Figura 86. 



Figura 86: Adigao de dois vetores. 
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Produto escalar e comprimento de dois vetores 

O produto escalar entre dois vetores, neste exemplo das especies vegetais 

e representado pelos vetores Vg j e Vg 2 . O produto escalar desses dois 

vetores e o numero, que e obtido atraves da soma dos produtos dos respectivos 
elementos. Ja o produto escalar de um vetor por ele mesmo corresponde ao seu 
comprimento, ou seja, a sua norma. 

Em analises que englobam diversas variaveis e a representagao vetorial e 
simultanea exige que todos os vetores representatives dessas variaveis tenham 

norma igual a 1, que e representada por |^g 2 | = *\a\ x + a 2 22 , conforme o Teorema de 
Pitagoras. Existe um caso particular, no qual a norma do vetor e igual a 1 , sendo que 
nestas circunstancias os elementos respeitam a igualdade cos 2 a + sen 2 a = 1 , como 
pode-se observar na Figura 87. 


4 

k 

a 2 


G \ 1 

Figura 87: Vetor U de norma 1 

Ortogonalidade entre dois vetores 

Vetores perpendiculares sao tambem chamados vetores ortogonais. Por um 
teorema dois vetores nao-nulos sao ortogonais se seu produto escalar e zero 
(u.v = 0). 

Ou seja, o cosseno do angulo entre dois vetores e igual a razao entre o 
produto escalar e o produto de suas normas. Essa relagao pode ser aplicada em 
estatistica. Sejam duas especies de vegetais A t e A 2 , contadas e n amostras, e de 
media n\ e m, . Supoe-se os efetivos a centrados, na qual cada especie tern a 
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seguinte representagao vetorial A l com os elementos (a n - m x , a l2 - m x ) e 

($21 m 2 , Cl -) 2 ^2 ) ■ 

A norma de cada vetor e dada por: 

ik i = ii - m i) 2 + («i2 - m \ y 


Se A x e A 2 sao dois vetores nao nulos, fazendo urn angulo entre eles tem- 
se a relagao: 


cos a = 


^1 '^2 

IK UK 


Propriedade: 

• Dois vetores sao ortogonais se o produto interno entre eles e zero. 


6.4 Distancia euclidiana 


Considerando o caso mais simples, no qual existem n individuos, onde cada 
urn dos quais possuem valores para p variaveis, a distancia euclidiana entre eles e 
obtida mediante o teorema de Pitagoras para urn espago multidimensional. Esta 
distancia e uma medida de semelhanga e pode ser expressa pela distancia D entre 
as extremidades de dois vetores, como mostra a Figura 88. 



Figura 88: Distancia euclidiana D iB entre dois vetores A e B. 
Fonte: Valentin (2000). 


A distancia euclidiana e calculada com base no teorema de Pitagoras: 

D A b ~ X H ] ) “K-^4 — x fi, ) 

ou ainda, generalizando para duas amostras contendo m especies, a distancia 
euclidiana e dada por: 
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D A ,B ~ J X B,j) 

6.5 Autovalores e autovetores de uma matriz 

O objetivo dos pesquisadores quando aplicam tecnicas multivariadas em um 
determinado conjunto de dados e evidenciar os principais fatores que regem a 
estrutura dos mesmos. O pesquisador busca descrever essa estrutura atraves de um 
grande numero de variaveis que servirao de base de dados para a extragao desses 
fatores quando forem aplicadas as tecnicas multivariadas. Esses fatores irao explicar 
aspectos diferentes desse conjunto de dados, e por isso deverao ser independentes, 
isto e, representados por eixos ortogonais, produto escalar igual a zero. 

A solugao deste problema, que esta na base das analises ditas fatoriais, 
consiste em passar de uma matriz A de coeficientes de dependencia (correlagao ou 
covariancia) entre variaveis para uma matriz diagonal D, onde todos os coeficientes 
sao nulos, exceto os da diagonal principal A (VALENTIN, 2000). 

A operagao abaixo e chamada de diagonalizagao da matriz A. 


a n 

a n 

. . . a , 

1 m i 


a \2 

a 22 

. . . a. 

2 m 





<=> D = 

a m\ 

a m2 

. . . a 

mm J 



0 0 
A 2 0 
0 A 3 


0 


0 

0 



Os termos da diagonal principal da matriz D sao os autovalores (raizes 
caracteristicas) da matriz A, que sera dado pela equagao: 


Axj = A jXj ou 


A - A ./ 


. x j 


= 0 


Xj sao os autovetores da matriz A, sendo que a cada autovalor A^xiste um 
autovetor x f correspondente sendo quej e (1, m ). 


Seja A uma matriz quadrada, se existe um escalar A e um vetor X nao nulo 

tal que: 

Ax = Ax, 
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entao A e chamado de autovalor deAeXeo autovetor correspondente. Todos os 
autovalores A ; (alguns com repetigao) podem ser obtidos resolvendo a equagao 


caracteristica de A, isto e: 

det (A - AI) = 0 

O conjunto de todos os autovalores e chamado de espectro, decomposigao 
espectral, entre outros nomes. 


Se A e urn autovalor, qualquer solugao nao trivial de (A - AI)X = 0 e urn 
autovalor de A correspondente a A . 

Propriedades: 

■ Se a matriz e nao singular, entao todos os seus autovalores sao diferentes de 
zero. 

■ Se a matriz e simetrica, entao todos os seus autovalores sao numeros reais. 

■ Os autovalores de uma matriz definida positiva sao todos positivos. 


Seja A 


4 -5 
2 -3 


a matriz de associagao entre duas variaveis. 


Transformar-se-a numa matriz diagonal D, sendo que os termos da diagonal 
principal correspondem aos autovalores da matriz A, e que para cada autovalor, 
existe urn autovetor associado, neste caso os autovalores sao representados por 
x, e x 2 . Encontre os autovalores e autovetores da equagao matricial: 


1 

1 

Lh 

1 

1 

* 

1 

= A 

1 

1 

L2 

-3J 

L X 2. 


1 

X 

N) 

1 


j 4xj - 5 x 2 = Ax, J(4x, - Ax,) - 5x 2 =0 j(4 - A)x, - 5x 2 = 0 

[2x, - 3x 2 = Ax 2 [2x, - (3x 2 - Ax 2 )= 0 [2x, - (3 + A)x 2 = 0 

Pode-se observar que no sistema x, = x 2 = 0, isto e, admite solugao unica, 
nao sendo este resultado satisfatorio para o trabalho. Para se obter outras solugoes 
deve-se fazer o determinante da matriz dos coeficientes igual a 0: 

2 -(3 + A) 

(4- A)-(3 + A) + 10 = 0 
-12 - 4 A + 3 A + A 2 +10 = 0 
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A 2 - A - 2 = 0 esta equagao e denominada de polinomio caracteristico. 
Os autovalores (raizes caracteristicas) sao obtidos da equagao: 

A _ ~ b ± V(~^) 2 - 4 (a)(c) 

2(a) 

: 1 ± V(-l ) 2 - 4 (l)(- 2 ) 

A = 

(2)(1) 


A 


1 ± V9 
2 


=> A 


1 + 3 
2 


A , =-1 
A 2 =2. 

Pode-se observar que a soma dos autovalores corresponde ao trago e ao 
determinante da matriz A. 


Aj +A 2 + ....+ A p = trago da matriz A. Ou seja, 
-1+2 = 1= trago da matriz A. 

(A 1 ).(A 2 ) ....( A ) = determinante da matriz A. 


(■1 )-( 2 ) = -2 


Deve-se observar tambem que a adigao de duas raizes caracteristicas e 1 
que nada mais e que o segundo termo da equagao. 

Com a diagonalizagao da matriz A obteve-se a matriz diagonal e 


D = 


-1 

0 


0 

2 


das raizes caracteristicas. 


O calculo dos autovetores associados a A, 


caracteristica dos autovetores que e 


S - A ,/ 


X,. 


= -1 e dado pela equagao 
= 0 ou mediante sistema, 


substituindo o autovalor. Existe urn vetor X para cada valor de A . 
Os autovetores Xsao calculados pela equagao matricial: 


4 - 5 “ 

-(- 1 ) 

"1 0" 

Xi 

= 

"0" 

2 -3 

0 1 

_x 2 _ 


0 


4 + 1 

-5 



“ 0 " 

2 

-3 + 1 

_x 2 J 


0 
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5x, - 5x 2 = 0 
[ 2x x - 2x 2 = 0 

ou ainda: 


j(4 - A)X[ - 5x 2 = 0 
{2x x - (3 + A)x 2 = 0 


substituindo o autovalor pelo valor encontrado no mesmo 


tem-se: 


f(4 - (-l))x, - 5 x 7 =0 f5x, - 5 x 2 = 0 

=> j , ou seja, os sistemas sao equivalentes. 

[2x, - (3 + (— l))x 2 = 0 [2x 1 -2 x 2 = 0 


Este sistema de equagoes e indeterminado, em virtude de 


\S -AI\ 


= 0 


5 

2 


-5 

-2 


= 0 


Ou ainda por x, = x 2 = 0 , ou seja, indica que o vetor passa pela origem. 

Devido a isso pode-se, deixar uma das equagoes, neste caso a segunda, e 
atribuir um valor qualquer, que nao seja nulo, a uma das incognitas (x 2 =1), para se 
obter o segundo ponto do vetor. Dessa forma tem-se: 

5x x - 5(1 ) = 0 
5xj -5 = 0 
5x, = 5 

Xj = 1 , logo o primeiro autovetor e 

= 


1 

1 


Ja o segundo autovetor e dado pela outra raiz A 2 = 2 : 



A 2 1 




0 


4 -5] 

-(2) 

"1 0" 

Xi 



"0" 

2 -3 

0 1 

_ X 2 \ 


0 


4-2 

1 

Lh 
1 

1 

1 


1 

0 

1 

2 

— i 
<N 

1 

m 

1 

1 

X 

1 


1 

o 

1 


[ 2x, - 5 x 2 = 0 
[ 2xj - 5 x 2 = 0 


ou ainda: 
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J(4 - A)X[ - 5x 2 = 0 
(2X[ - (3 + A)x 2 = 0 


substituindo o autovalor pelo valor encontrado no mesmo 


tem-se: 


f(4 - 2)x, - 5x 2 = 0 f 2x, - 5x 7 = 0 

< = >1 , ou seja, os sistemas sao equivalentes. 

[2x l - (3 + 2)x 2 = 0 [2x l -5x 2 = 0 


De forma analoga ao primeiro autovetor, atribui-se um valor para (x 2 = 1), 

logo: 

2x x - 5(1) = 0 
2x j -5 = 0 
2x, = 5 

x t = 2,5, logo o segundo autovetor e: 



Dessa forma a matriz dos autovetores e X = 


1 

1 


2,5 

1 
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